Policy Gradient简述

占个坑！！！

简单解释

Policy Gradient需要Actor 网络来实现，通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy（动作的概率）。对于动作的价值评价更是多种多样，这些就是PG（Policy Gradient）的核心部分。

注：log的有无区别
加log：增加了非线性
无log：无非线性

详情在这里：
Policy Gradient简述
一共涉及6种价值的评估：
1 轨迹中，全部奖励值的总和，有点以点盖全的感觉。
2 轨迹中，动作之后奖励值的总和，来表征做出动作之后的一个长期回报的期望。
3 在第2个方法中的奖励值总和减去一个基准。
4 直接应用Q值来作为指标，在策略policy下，在某一状态采取某一具体动作的价值表征。就是DQN方法，或者说是A3C中Critic的动作好坏评估阶段方法。
5 A3C中Actor中利用的方法，称之为“优势”，在动作在状态中的价值去除过状态的价值，更加合理一些。
6 利用状态价值加上时间差分算法的应用。

以AlphaGo为例，AlphaGo的policy network输出的是softmax概率，我们只能从中选择一个下法，然后得到一个reward。这种情况下reward和policy network之间是不可微的关系，而使用Policy Gradient则没有这个障碍。也因为Policy Gradient的这个特点，目前的很多传统监督学习的问题因为输出都是softmax的离散形式，都可以改造成Policy Gradient的方法来实现，调节得当效果会在监督学习的基础上进一步提升。

对于输出从概率（离散动作）到向量（连续控制）的转变问题！

通过SPG（随机策略梯度）、DPG（确定策略梯度）具体的请关注下一个博客！

简单解释

对于输出从概率（离散动作）到向量（连续控制）的转变问题！

相关推荐