深度强化学习 on-policy 和 off-policy

如下图，考查两个Policy的一致性：

比如DQN：

深度强化学习 on-policy 和 off-policy

Target Policy π 是基于target network(参数为深度强化学习 on-policy 和 off-policy )的greedy policy，即给定s，选择使target value最大的a；

Behavior Policy b 是基于predict network(参数为深度强化学习 on-policy 和 off-policy )的-greedy policy，同时保留一定的探索性；

二者基于不同的参数和不同的策略，为off-policy.

比如A3C：

policy π ---> (reward, state) ---> V ---> R ---> delta error

目标值R就是直接基于policy network(π, 参数为深度强化学习 on-policy 和 off-policy )生成的数据，即on-policy data。

深度强化学习 on-policy 和 off-policy

以上图片下文字描述摘自Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning: An Introduction》.