深度强化学习 on-policy 和 off-policy

如下图,考查两个Policy的一致性:

  1. 生成训练数据基于的Behavior Policy
  2. 目标值即target value基于的Target Policy

on-policy:两者一致

深度强化学习 on-policy 和 off-policy

off-policy:两者不同

深度强化学习 on-policy 和 off-policy

比如DQN:

深度强化学习 on-policy 和 off-policy

       Target Policy π 是基于target network(参数为深度强化学习 on-policy 和 off-policy)的greedy policy,即给定s,选择使target value最大的a;

       Behavior Policy b 是基于predict network(参数为深度强化学习 on-policy 和 off-policy)的深度强化学习 on-policy 和 off-policy-greedy policy,同时保留一定的探索性;

       二者基于不同的参数和不同的策略,为off-policy.

比如A3C:

      policy π  ---> (reward, state) ---> V ---> R ---> delta error

      目标值R就是直接基于policy network(π, 参数为深度强化学习 on-policy 和 off-policy)生成的数据,即on-policy data。      

深度强化学习 on-policy 和 off-policy     

 

以上图片下文字描述摘自Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning: An Introduction》.