七月算法强化学习 第五课 学习笔记
Policy Gradient策略梯度
增强学习的一些分类:
Value Based:值函数 Q值函数
Policy Based:不需要值函数 直接优化Policy
Actor Critic:学习值函数 学习Policy
Deterministic policy的问题
Policy Network
Gradient Ascent
Policy Objective
One step MDP
Multi-step MDP
考虑整个trajectory
展开整个trajectory
REINFORCE
Policy Gradient小结
Actor-critic
Compatible Function Approximation
Actor-critic证明