莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述

1、Actor Critic概述

Actor Critic是强化学习中的一种结合体, 它合并了 以值为基础 (比如 Q learning) 和 以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法。
莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述

Actor-Critic可以拆分成Actor和Critic两部分。

Actor 的前生是 Policy Gradients,可以在连续动作中选取合适的动作, 而 Q-learning 做这件事会瘫痪。

Critic 的前生是 Q-learning或者其他的以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 是回合更新, 会降低学习效率。

Critic 通过学习环境和奖励之间的关系, 看到现在所处状态的潜在奖励, 从而指点 Actor实现单步更新。

2、DDPG概述

Actor-Critic 涉及到两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题,为了解决这个问题, 修改了 Actor Critic 的算法,即改进版 Deep Deterministic Policy Gradient (DDPG)。

DDPG的优势就是能够在连续动作上更有效地学习。
莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述
DDPG 分成 ‘Deep’ 和 ‘Deterministic Policy Gradient’。 ‘Deterministic Policy Gradient’ 又能被细分为 ‘Deterministic’ 和 ‘Policy Gradient’。

(1)Deep

即DDPG神经网络也使用DQN思想,使用一个记忆库,使用两套结构相同、但参数更新频率不同的神经网络。
莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述

(2)Deterministic Policy Gradient

Policy gradient可以在连续动作上进行动作筛选,且筛选是根据所学习到的动作分布随机进行。 Deterministic 改变了输出动作的过程, 只在连续动作上输出一个动作值。
莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述

(3)DDPG神经网络

跟AC类似,DDPG神经网络也可以划分为基于策略 Policy 的神经网络和基于价值 Value 的神经网络, 但是为了体现 DQN 的思想, 每种神经网络都需要再细分为两个。

Policy Gradient可以分为估计网络和现实网络。
估计网络用来输出实时的动作, 供 actor 在现实中实行;现实网络是用来更新价值网络系统的。

Value-Based价值系统也可以现实网络和估计网络。
状态现实网络从动作现实网络输出的动作加上状态的观测值加以分析, 状态估计网络把Actor 施加的动作当做输入。

在实际运用中, DDPG 的这种做法的确带来了更有效的学习过程。
莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述

3、A3C概述

(1)平行训练

A3C基本框架是Actor-Critic,为了训练一对 Actor 和 Critic,将其复制多份,同时进行训练,每个副本都向原本进行训练反馈,同时副本也可以从原本中收集到综合考量信息。

一来一回, 形成了一种有效率的强化学习方式.
莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述

(2)多核训练

使用A3C的方法,可以让运算副本在计算机不同的核上并行运行,大大提高计算速度。
莫烦强化学习笔记整理(七)Actor Critic,DDPG,A3C概述