强化学习(2)-算法总论

DRL的基本模型:

强化学习(2)-算法总论
DRL算法大框架:
强化学习(2)-算法总论
大脑的执行机构-actor: 输入状态s,输出动作a(policy gradient算法)
大脑的评判机构-critrc:根据回馈r(外界给的)进行调整。(Q learning)
人类也是在本能和价值观影响作用下进行行为,并且价值受经验的影响不断改变。
在actor-critic的框架下:有DQN、A3C、UNREAL等算法提出。
DQN-
强化学习(2)-算法总论
第一个提出的DRL算法,输出动作有限情况可用。仅有critic模块。critic模块重新表示为value network。
算法:基于价值网络,我们可以遍历某个状态s下各种动作的价值,然后选择价值最大的一个动作输出。
重点:value network怎么设计,每个动作的价值如何计算。怎么更新每个动作的价值。
针对更新问题:我们要有一个目标Q(价值)(根据bellman公式迭代),和现在的Q进行平方差最小化来更新参数。

A3C算法:
1)在价值网络的基础上,价值网络给出动作的好坏评价,乘以动作网络中整体动作概率分布,作为动作网络的损失函数。
2)actor网络的输出有两种:某一确定动作和所有动作的分布概率。A3c采用动作概率的方式。
3)A3C在动作价值Q的基础上,使用优势A(Advantage)作为动作的评价。优势A是指动作a在状态s下相对其他动作的优势。假设状态s的价值是V,那么A=Q-V。
具体计算上:A3C算法调整了Critic评判模块的价值网络,让其输出V值,然后使用多步的历史信息来计算动作的Q值
4)还使用异步训练的思想

区分:
我们只有在使用Policy Gradient时完全不使用Q,仅使用reward真实值来评价,才叫做Policy Gradient,要不然Policy Gradient就需要有Q网络或者V网络,就是Actor Critic。

https://www.zhihu.com/question/56692640/answer/157280972

POMDP介绍:MDP是状态到动作的mapping,而POMDP是基于状态之上的概率分布(probability distribution over states)到动作的mapping。

https://www.zhihu.com/question/41477987