您的位置: 首页 > 文章 > 七月算法强化学习第五课学习笔记

七月算法强化学习第五课学习笔记

分类: 文章 • 2023-03-28 22:45:37

Policy Gradient策略梯度

增强学习的一些分类：

Value Based：值函数 Q值函数

Policy Based：不需要值函数直接优化Policy

Actor Critic：学习值函数学习Policy

Deterministic policy的问题

七月算法强化学习第五课学习笔记

Policy Network

七月算法强化学习第五课学习笔记

Gradient Ascent

七月算法强化学习第五课学习笔记

Policy Objective

七月算法强化学习第五课学习笔记

One step MDP

七月算法强化学习第五课学习笔记

Multi-step MDP

七月算法强化学习第五课学习笔记

考虑整个trajectory

七月算法强化学习第五课学习笔记

七月算法强化学习第五课学习笔记

展开整个trajectory

七月算法强化学习第五课学习笔记

REINFORCE

七月算法强化学习第五课学习笔记

Policy Gradient小结

七月算法强化学习第五课学习笔记

Actor-critic

七月算法强化学习第五课学习笔记

七月算法强化学习第五课学习笔记

Compatible Function Approximation

七月算法强化学习第五课学习笔记

Actor-critic证明

七月算法强化学习第五课学习笔记

七月算法强化学习第五课学习笔记

七月算法强化学习第五课学习笔记