您的位置: 首页 > 文章 > 强化学习之时间差分方法

强化学习之时间差分方法

分类: 文章 • 2024-01-06 22:25:22

TD 预测：TD(0)

虽然蒙特卡洛 (MC) 预测方法必须等到阶段结束时才能更新值函数估值，但是时间差分 (TD) 方法在每个时间步之后都会更新值函数。
对于任何固定策略，一步 TD（或 TD(0)）保证会收敛于真状态值函数，只要步长参数 \alphaα 足够小。
在实践中，TD 预测的收敛速度比 MC 预测得要快。

强化学习之时间差分方法

TD 预测：动作值

-（在此部分，我们讨论了估算动作值的 TD 预测算法。和 TD(0) 算法相似，该算法保证会收敛于真动作值函数，只要步长参数 \alphaα 足够小。）

TD 控制：Sarsa(0)

Sarsa(0)（或 Sarsa）是既定策略 TD 控制方法。它保证会收敛于最优动作值函数 q_*q∗，只要步长参数 \alphaα足够小，并且所选的 \epsilonϵ 满足有限状态下的无限探索贪婪算法 (GLIE) 条件。

强化学习之时间差分方法

强化学习之时间差分方法

TD 控制：Sarsamax

Sarsamax（或 Q 学习）是一种新策略 TD 控制方法。它会在保证 Sarsa 算法会收敛的相同条件下保证收敛于最优动作值函数 q_*q∗。

强化学习之时间差分方法

TD 控制：预期 Sarsa

预期 Sarsa 是一种新策略 TD 控制方法。它会在保证 Sarsa 和 Sarsamax 算法会收敛的相同条件下保证收敛于最优动作值函数 q_*q∗。

强化学习之时间差分方法

强化学习之时间差分方法

在以下情况下，我们讨论过的所有 TD 控制算法（Sarsa、Sarsamax、预期 Sarsa）都会收敛于最优动作值函数 q_*q∗（并生成最优策略 \pi_*π∗）：(1)\epsilonϵ 的值根据 GLIE 条件逐渐降低，以及 (2) 步长参数 \alphaα 足够小。

这些算法之间的区别总结如下：

Sarsa 和预期 Sarsa 都是异同策略 TD 控制算法。在这种情况下，我们会根据要评估和改进的相同（\epsilonϵ 贪婪策略）策略选择动作。
Sarsamax 是离线策略方法，我们会评估和改进（\epsilonϵ 贪婪）策略，并根据另一个策略选择动作。
既定策略 TD 控制方法（例如预期 Sarsa 和 Sarsa）的在线效果比新策略 TD 控制方法（例如 Sarsamax）的要好。
预期 Sarsa 通常效果比 Sarsa 的要好。