DQN:强化学习 阅读记录

1、创新点1:Experience Replay

与普通的TD-r不同的是,DQN采用了一种 experience replay的方式,experience replay会存储所有时刻agent的经验与回报。存储这些replay的数组结构被称为 replay memory。

DQN:强化学习 阅读记录

如上图所示,每一个replay memory被记录为(a, s, r, s)的元组,每次训练将随机选择memory中的一个进行训练。之所以这样做是因为:

深度学习的输入是固定的,replay memory将记录保持为(a, s, r, s)的元组,这能让强化学习利用深度学习去学习。

另外,随机的选择sample的方式降低了取样的相关度,这对于神经网络的学习更加有效。

2、Advantages

DQN:强化学习 阅读记录

DQN:强化学习 阅读记录

文章将DQN的优势列为以上的几个部分:

1、每次能对很多权重进行更新,这保证了数据的效率。

2、随机的取样降低了取样的相关度,这对于神经网络的学习更加有效。

3、第三,当学习策略时,当前参数决定了参数训练的下一个数据样本。例如,如果最大化动作向左移动,则训练样本的参数将由左侧的样本控制;如果最大化动作随后切换至右侧,则训练分布也将切换。很容易看出有些在训练时很差的样本会把训练结果带偏,参数可能会因此陷入一个很差的局部最小值。通过使用经验回放,行为的分布会在许多以前的状态下进行平均,平滑了学习,避免了参数的振荡或发散。

3、算法描述

DQN:强化学习 阅读记录

4、创新点2:Target Network

Target Network:在Nature版本的文章里面就加入了一个目标网络,这个网络每隔一些episode与最新的网络同步一下权重,这样更新较慢的网络用于查询max步的Q值。

DQN:强化学习 阅读记录

5、DQN实现,玩mountain-car game

https://github.com/syyxtl/RL-learn