基于策略的强化学习(四):深度确定性策略梯度(DDPG)算法

深度确定性策略梯度(DDPG)算法

深度确定性策略梯度算法是使用深度学习技术、同时基于 Actor—Critic 算法的确定性策略算法。该算法中的 Actor 和 Critic 都使用深度神经网络来建立近似函数。由于该算法可以直接从 Actor 的策略生成确定的行为而不需要依据行为的概率分布进行采样而被称为确定性策略。该算法在学习阶段通过在确定性的行为基础上增加一个噪声函数而实现在确定性行为周围的小范围内探索。此外,该算法还为 Actor 和 Critic 网络各备份了一套参数用来计算行为价值的期待值以更稳定地提升 Critic 的策略指导水平。使用备份参数的网络称为目标网络,其对应的参数每次更新的幅度很小。另一套参数对应的 Actor 和 Critic 则用来生成实际交互的行为以及计算相应的策略梯度,在一套参数每学习一次就更新一次。这种双参数设置的目的是为了减少因近似数据的引导而发生不收敛的情形。四个网络的具体使用情况为:基于策略的强化学习(四):深度确定性策略梯度(DDPG)算法DDPG算法变现出色,能较为稳定地解决连续行为空间下的强化学习问题,具体算法流程如下图所示:基于策略的强化学习(四):深度确定性策略梯度(DDPG)算法