强化学习（6）：Actor-Critic（演员评论家）算法

本文主要讲解有关 Actor-Critic 算法的有关知识。

一、Actor Critic 算法

Actor-Critic 算法合并了以策略为基础的 Policy Gradient和以值为基础的 Q-Learning 两类强化学习算法，该算法中将前者当作 Actor，用来基于概率选择行为。将后者当作 Critic，用来评判 Actor 的行为得分，然后 Actor 又会根据 Critic 的评分修改行为的概率。这使得它既可以在有效的处理连续动作的选取，又可以进行单步更新（PG算法的回合更新降低了学习效率）。

下面分别介绍一下 Actor 网络和 Critic 网络这个两个部分。

二、Actor 网络

Actor 网络采用的是基于策略的 Policy-Gradient 算法。PG 算法的损失函数可以表示为： $loss=-E[\log{[\pi(a|s)]}\cdot \psi]$ ，其中 $\psi$ 是对某个轨迹的评分，在 AC 算法中它可以有多种表示方式：

状态价值函数：V(s)
动作价值函数：Q(s,a)
TD-error： $r+\gamma\cdot Q(s_{t+1},a_{t+1})-Q(s_t,a_t)$
优势函数：V(s,a)
总回报： $\sum r_t$
加入基线的总回报： $\sum r_t-b$

在实际编写代码的时候，使用的是 TD-error 来作为评价，同时为了鼓励探索（exploration），所以损失函数中还加入了交叉熵损失。

三、Critic 网络

Critic 网络采用的是基于值函数的 Q-Learning 算法，采用的是 $loss=(TD\_{error})^2$ 作为 Critic 网络的损失函数。

整个 Actor Critic 算法可以用下图表示：

强化学习（6）：Actor-Critic（演员评论家）算法

四、AC 算法的缺点

AC 取决于 Critic 的价值判断, 但是 Critic 难收敛, 再加上 Actor 的更新, 就更难收敛，为了解决该问题又提出了 DDPG 算法和 A3C 算法。

强化学习（6）：Actor-Critic（演员评论家）算法

一、Actor Critic 算法

二、Actor 网络

三、Critic 网络

四、AC 算法的缺点

相关推荐