Policy Gradient简述

占个坑!!!

简单解释

Policy Gradient需要Actor 网络来实现,通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy(动作的概率)。对于动作的价值评价更是多种多样,这些就是PG(Policy Gradient)的核心部分。

注:log的有无区别
加log:增加了非线性
无log:无非线性

详情在这里:
Policy Gradient简述
一共涉及6种价值的评估:
1 轨迹中,全部奖励值的总和,有点以点盖全的感觉。
2 轨迹中,动作之后奖励值的总和,来表征做出动作之后的一个长期回报的期望。
3 在第2个方法中的奖励值总和减去一个基准。
4 直接应用Q值来作为指标,在策略policy下,在某一状态采取某一具体动作的价值表征。就是DQN方法,或者说是A3C中Critic的动作好坏评估阶段方法。
5 A3C中Actor中利用的方法,称之为“优势”,在动作在状态中的价值去除过状态的价值,更加合理一些。
6 利用状态价值加上时间差分算法的应用。

以AlphaGo为例,AlphaGo的policy network输出的是softmax概率,我们只能从中选择一个下法,然后得到一个reward。这种情况下reward和policy network之间是不可微的关系,而使用Policy Gradient则没有这个障碍。也因为Policy Gradient的这个特点,目前的很多传统监督学习的问题因为输出都是softmax的离散形式,都可以改造成Policy Gradient的方法来实现,调节得当效果会在监督学习的基础上进一步提升。

对于输出从概率(离散动作)到向量(连续控制)的转变问题!

通过SPG(随机策略梯度)、DPG(确定策略梯度)具体的请关注下一个博客!