您的位置: 首页 > 文章 > 强化学习——off-policy

强化学习——off-policy

分类: 文章 • 2024-01-07 08:50:40

Table of Contents

p(x)/q(x)是一个权重

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布

我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度

分子分母差别过大会导致，效果不好

优化参数的同时，保持行为尽量一致，类似于一个正则化

左图是正面情况，更新参数，a发生的几率增加，往右跑；右图是负面情况，更新参数，a发生的几率减少，不过不能让p变化太大。

强化学习——off-policy

强化学习——off-policy

p(x)/q(x)是一个权重

强化学习——off-policy

这个取样的过程就是与环境互动出现一个轨迹的过程

横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布

我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改

强化学习——off-policy

强化学习——off-policy

分子分母差别过大会导致，效果不好

优化参数的同时，保持行为尽量一致，类似于一个正则化

强化学习——off-policy

左图是正面情况，更新参数，a发生的几率增加，往右跑；右图是负面情况，更新参数，a发生的几率减少，不过不能让p变化太大。