强化学习 ——On-Policy与Off-Policy
1.on-policy与off-policy
Sarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。
off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target policy),2)探索环境的策略(behavior policy),大胆探索环境为了给目标学习,off-policy由于将目标与行为策略分离开,Q-learing可以大胆的去探索经验轨迹来优化
2.Sarsa与Q-learing
Sarsa在公式中的A'为下一个state的实际action
Q-learing中更新Q表格时用到的Q值对应的action不一定是下一个state的实际action
两者的更新公式都相同,只是Target不同。
Q-learing默认下一个action是Q值最大的动作,不受探索的影响。
3.Q-learing与环境的交互
和Sarsa对比,Q-learing不需要知道next_action
3.1根据Q表格选动作
3.2更新Q表格