强化学习之DDPG（deep deterministic policy gradient）

1）出发点是什么？
之前的几种算法是基于离散动作的，现实生活中会存在连续动作，比如方向盘的角度等等。DDPG是为了解决连续动作应用而生。
强化学习之DDPG（deep deterministic policy gradient）
与上一个博客不同的是**函数的选择是tanh,将动作缩放到一定的区间，这样来表示连续动作。

2）什么是DDPG？
一张图很清晰啦。使用到了上一个博客中的时序差分，并且是确定性策略。
强化学习之DDPG（deep deterministic policy gradient）
在DDPG中，输入的动作需要由策略网络产生，这样完整的网络称为演员-评论家模式。

评论家接收到的是环境的反馈，而动作接收到的是评论家的反馈。

优化需要优化两个网络：

整体结构：存在4个网络，Q网络以及其固定的Q网络，策略网络以及其固定的策略网络。
强化学习之DDPG（deep deterministic policy gradient）
3）代码结构

目标网络（两个）参数软更新：

强化学习之DDPG（deep deterministic policy gradient）

相关推荐