DQN：强化学习阅读记录

1、创新点1：Experience Replay

与普通的TD-r不同的是，DQN采用了一种 experience replay的方式，experience replay会存储所有时刻agent的经验与回报。存储这些replay的数组结构被称为 replay memory。

如上图所示，每一个replay memory被记录为(a, s, r, s)的元组，每次训练将随机选择memory中的一个进行训练。之所以这样做是因为：

深度学习的输入是固定的，replay memory将记录保持为(a, s, r, s)的元组，这能让强化学习利用深度学习去学习。

另外，随机的选择sample的方式降低了取样的相关度，这对于神经网络的学习更加有效。

2、Advantages

文章将DQN的优势列为以上的几个部分：

1、每次能对很多权重进行更新，这保证了数据的效率。

2、随机的取样降低了取样的相关度，这对于神经网络的学习更加有效。

3、第三，当学习策略时，当前参数决定了参数训练的下一个数据样本。例如，如果最大化动作向左移动，则训练样本的参数将由左侧的样本控制；如果最大化动作随后切换至右侧，则训练分布也将切换。很容易看出有些在训练时很差的样本会把训练结果带偏，参数可能会因此陷入一个很差的局部最小值。通过使用经验回放，行为的分布会在许多以前的状态下进行平均，平滑了学习，避免了参数的振荡或发散。

3、算法描述

4、创新点2：Target Network

Target Network：在Nature版本的文章里面就加入了一个目标网络，这个网络每隔一些episode与最新的网络同步一下权重，这样更新较慢的网络用于查询max步的Q值。

5、DQN实现，玩mountain-car game

https://github.com/syyxtl/RL-learn

DQN：强化学习 阅读记录

相关推荐

DQN：强化学习阅读记录