强化学习（2）-算法总论

DRL的基本模型：

强化学习（2）-算法总论
DRL算法大框架：

大脑的执行机构-actor：输入状态s，输出动作a（policy gradient算法）
大脑的评判机构-critrc：根据回馈r（外界给的）进行调整。（Q learning）
人类也是在本能和价值观影响作用下进行行为，并且价值受经验的影响不断改变。
在actor-critic的框架下：有DQN、A3C、UNREAL等算法提出。
DQN-
强化学习（2）-算法总论
第一个提出的DRL算法，输出动作有限情况可用。仅有critic模块。critic模块重新表示为value network。
算法：基于价值网络，我们可以遍历某个状态s下各种动作的价值，然后选择价值最大的一个动作输出。
重点：value network怎么设计，每个动作的价值如何计算。怎么更新每个动作的价值。
针对更新问题：我们要有一个目标Q（价值）（根据bellman公式迭代），和现在的Q进行平方差最小化来更新参数。

A3C算法：
1）在价值网络的基础上，价值网络给出动作的好坏评价，乘以动作网络中整体动作概率分布，作为动作网络的损失函数。
2）actor网络的输出有两种：某一确定动作和所有动作的分布概率。A3c采用动作概率的方式。
3）A3C在动作价值Q的基础上，使用优势A（Advantage）作为动作的评价。优势A是指动作a在状态s下相对其他动作的优势。假设状态s的价值是V，那么A=Q-V。
具体计算上：A3C算法调整了Critic评判模块的价值网络，让其输出V值，然后使用多步的历史信息来计算动作的Q值
4）还使用异步训练的思想

区分：
我们只有在使用Policy Gradient时完全不使用Q，仅使用reward真实值来评价，才叫做Policy Gradient，要不然Policy Gradient就需要有Q网络或者V网络，就是Actor Critic。

https://www.zhihu.com/question/56692640/answer/157280972

POMDP介绍：MDP是状态到动作的mapping，而POMDP是基于状态之上的概率分布（probability distribution over states)到动作的mapping。

https://www.zhihu.com/question/41477987

强化学习（2）-算法总论

相关推荐