Q-learning和Sarsa的区别

Q-learning和Sarsa的区别
因此对于SARSA来说
1.在状态s’时，就知道了要采取哪个a’，并真的采取了这个动作。
2.动作a的选取遵循e-greedy策略，目标Q值的计算也是根据（e-greedy）策略得到的动作a’计算得来，因此为on-policy学习。
（选择下个动作的存在探索的可能性）

而对于Q-learning来说

只会选择使得下个状态Q值最大的下个动作。
Q-learning 只会估计下个动作是什么（使得下个状态最大的动作），但是下个动作不一定会采取，下个动作会进行重新的e-greedy策略选择。

####Q learning 机器人永远都会选择最近的一条通往成功的道路, 不管这条路会有多危险. 而 Sarsa 则是相当保守, 他会选择离危险远远的, 拿到宝藏是次要的, 保住自己的小命才是王道. 这就是使用 Sarsa 方法的不同之处.

Q-learning和Sarsa的区别

相关推荐