Q-learning和Sarsa的区别

Q-learning和Sarsa的区别
因此对于SARSA来说
1.在状态s’时,就知道了要采取哪个a’,并真的采取了这个动作。
2.动作a的选取遵循e-greedy策略,目标Q值的计算也是根据(e-greedy)策略得到的动作a’计算得来,因此为on-policy学习。
(选择下个动作的存在探索的可能性)

而对于Q-learning来说

  1. 只会选择使得下个状态Q值最大的下个动作。
  2. Q-learning 只会估计下个动作是什么(使得下个状态最大的动作),但是下个动作不一定会采取,下个动作会进行重新的e-greedy策略选择。

####Q learning 机器人 永远都会选择最近的一条通往成功的道路, 不管这条路会有多危险. 而 Sarsa 则是相当保守, 他会选择离危险远远的, 拿到宝藏是次要的, 保住自己的小命才是王道. 这就是使用 Sarsa 方法的不同之处.