强化学习 ——On-Policy与Off-Policy

1.on-policy与off-policy

Sarsa（on-policy）优化的是实际上执行的策略，拿下一步一定执行的action来优化Q表格，Sarsa知道自己下一步会跑到悬崖去，所以在这一步它会尽可能的离悬崖远一点，保证下一步即使是随机动作，也会在安全区域内。

off-policy在学习的过程中，保留2种策略：1）希望学到的最佳的目标策略（target policy），2）探索环境的策略(behavior policy)，大胆探索环境为了给目标学习，off-policy由于将目标与行为策略分离开，Q-learing可以大胆的去探索经验轨迹来优化

2.Sarsa与Q-learing

Sarsa在公式强化学习 ——On-Policy与Off-Policy 中的A'为下一个state的实际action

Q-learing中更新Q表格时用到的Q值对应的action不一定是下一个state的实际action

强化学习 ——On-Policy与Off-Policy

两者的更新公式都相同，只是Target不同。

Q-learing默认下一个action是Q值最大的动作，不受探索的影响。

强化学习 ——On-Policy与Off-Policy

3.Q-learing与环境的交互

和Sarsa对比，Q-learing不需要知道next_action

强化学习 ——On-Policy与Off-Policy

3.1根据Q表格选动作

强化学习 ——On-Policy与Off-Policy

3.2更新Q表格

强化学习 ——On-Policy与Off-Policy