我已经有两年 ML 经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。

关于强化学习，我专门花半年时间学习实践过，因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库：
https://github.com/PiperLiu/Reinforcement-Learning-practice-zh
我的 CSDN 强化学习博客集合：
https://blog.csdn.net/weixin_42815609/category_9592110.html

本节内容综述

今天的内容分为 3 部分：Introduction of Q-Learning、Tips of Q-Learning 以及 Q-Learning for Continuous Actions 。
Q-Learning 是一个 value-based 的方法，李老师将其比喻成，是在学习 Critic （毕竟李老师是先从 PG 开始讲的）。
How to estimate $V^\pi (s)$ ，可以用 Monte-Carlo based approach 或者 Temporal-difference approach 。比较了 MC 与 TD 的差别：MC 的 variance 较大；但是 TD 的 $V$ 可能不准。
在 Q-Learning 中，没有所谓的 $\pi$ ，用的是 $Q$ 对 $\pi$ 进行描述。
讲了几个基本的 Tips ，在 DQN 的原始文章中都有提到过。
接着，介绍了一些高阶的 DQN 的 tips 。
接下来，介绍了 Continuous Actions 。

小细节

basic tips

Target Network

【李宏毅2020 ML/DL】P112-114 Q-Learning: Introduction & Tips & Continuous Actions
如上，在训练时，通常会使用一个 Target Network 。

Exploration

【李宏毅2020 ML/DL】P112-114 Q-Learning: Introduction & Tips & Continuous Actions
使用 $a = arg \max_a Q(s,a)$ 进行探索，并不是一个好的选择，对于采样来说。

Replay Buffer

【李宏毅2020 ML/DL】P112-114 Q-Learning: Introduction & Tips & Continuous Actions
如上，值得注意的是，buffer 中有不同策略的经验；因此这是一个 Off-policy 的训练。

Tips of Q-Learning

Double DQN

【李宏毅2020 ML/DL】P112-114 Q-Learning: Introduction & Tips & Continuous Actions
如上，Q-value 容易被“高估”，超过实际的值。

Why

【李宏毅2020 ML/DL】P112-114 Q-Learning: Introduction & Tips & Continuous Actions
如上，为什么 Q-value 总是被高估呢？上面有四个动作，其总会选择被高估的动作。

如上，用两个 Q ，如果 Q 高估了，但是 Q’ 没有高估，二者互补。在实际操作中，目标网络就是第二个 Q 。

Dueling DQN

Dueling DQN 只是改了网络的架构。
【李宏毅2020 ML/DL】P112-114 Q-Learning: Introduction & Tips & Continuous Actions
如上，其将 $V(s)$ 与 $A(s,a)$ 拆开输出，并且 $Q(s,a) = A(s,a) + V(s)$ 。

Why

【李宏毅2020 ML/DL】P112-114 Q-Learning: Introduction & Tips & Continuous Actions
我们在训练时，修正的是 $Q$ 的值，假设我们只修正了两个 action 的值，但是神经网络可能自动地修正了 $V$ 的值，因此，这个状态下的其他动作的值也随之被泛化。