您的位置: 首页 > 文章 > 《强化学习》基于策略的方法 《强化学习》基于策略的方法 分类: 文章 • 2024-01-06 18:01:58 基于策略RL和基于值函数RL 直觉 不同种类的策略 策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy based 和 Value based A3C 结合监督学习和强化学习