强化学习——off-policy

Table of Contents

p(x)/q(x)是一个权重

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布

我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度

分子分母差别过大会导致,效果不好

优化参数的同时,保持行为尽量一致,类似于一个正则化

 

左图是正面情况,更新参数,a发生的几率增加,往右跑;右图是负面情况,更新参数,a发生的几率减少,不过不能让p变化太大。


强化学习——off-policy

强化学习——off-policy

p(x)/q(x)是一个权重

强化学习——off-policy

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布

我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改

强化学习——off-policy

强化学习——off-policy

分子分母差别过大会导致,效果不好

优化参数的同时,保持行为尽量一致,类似于一个正则化

强化学习——off-policy

 

强化学习——off-policy

左图是正面情况,更新参数,a发生的几率增加,往右跑;右图是负面情况,更新参数,a发生的几率减少,不过不能让p变化太大。