强化学习——off-policy
Table of Contents
横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布
我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度
左图是正面情况,更新参数,a发生的几率增加,往右跑;右图是负面情况,更新参数,a发生的几率减少,不过不能让p变化太大。
p(x)/q(x)是一个权重
这个取样的过程就是与环境互动出现一个轨迹的过程
横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布
我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改
分子分母差别过大会导致,效果不好
优化参数的同时,保持行为尽量一致,类似于一个正则化
左图是正面情况,更新参数,a发生的几率增加,往右跑;右图是负面情况,更新参数,a发生的几率减少,不过不能让p变化太大。