强化学习之DDPG(deep deterministic policy gradient)

1)出发点是什么?
之前的几种算法是基于离散动作的,现实生活中会存在连续动作,比如方向盘的角度等等。DDPG是为了解决连续动作应用而生。
强化学习之DDPG(deep deterministic policy gradient)
与上一个博客不同的是**函数的选择是tanh,将动作缩放到一定的区间,这样来表示连续动作。
强化学习之DDPG(deep deterministic policy gradient)
2)什么是DDPG?
一张图很清晰啦。使用到了上一个博客中的时序差分,并且是确定性策略。
强化学习之DDPG(deep deterministic policy gradient)
在DDPG中,输入的动作需要由策略网络产生,这样完整的网络称为演员-评论家模式。
强化学习之DDPG(deep deterministic policy gradient)
评论家接收到的是环境的反馈,而动作接收到的是评论家的反馈。
强化学习之DDPG(deep deterministic policy gradient)
优化需要优化两个网络:
强化学习之DDPG(deep deterministic policy gradient)
整体结构:存在4个网络,Q网络以及其固定的Q网络,策略网络以及其固定的策略网络。
强化学习之DDPG(deep deterministic policy gradient)
3)代码结构
强化学习之DDPG(deep deterministic policy gradient)
强化学习之DDPG(deep deterministic policy gradient)
目标网络(两个)参数软更新:
强化学习之DDPG(deep deterministic policy gradient)