七月算法强化学习 第五课 学习笔记

Policy Gradient策略梯度

增强学习的一些分类:

Value Based:值函数 Q值函数

Policy Based:不需要值函数 直接优化Policy

Actor Critic:学习值函数 学习Policy

Deterministic policy的问题

七月算法强化学习 第五课 学习笔记

Policy Network

七月算法强化学习 第五课 学习笔记

Gradient Ascent

七月算法强化学习 第五课 学习笔记

Policy Objective

七月算法强化学习 第五课 学习笔记

One step MDP

七月算法强化学习 第五课 学习笔记

Multi-step MDP

七月算法强化学习 第五课 学习笔记

考虑整个trajectory

七月算法强化学习 第五课 学习笔记

七月算法强化学习 第五课 学习笔记

展开整个trajectory

七月算法强化学习 第五课 学习笔记

REINFORCE

七月算法强化学习 第五课 学习笔记

Policy Gradient小结

七月算法强化学习 第五课 学习笔记

Actor-critic

七月算法强化学习 第五课 学习笔记

七月算法强化学习 第五课 学习笔记

Compatible Function Approximation

七月算法强化学习 第五课 学习笔记

Actor-critic证明

七月算法强化学习 第五课 学习笔记

七月算法强化学习 第五课 学习笔记

七月算法强化学习 第五课 学习笔记