七月算法强化学习 第三课 学习笔记

Unknown Environment MDP Control

基本思路:广义策略迭代(策略评估+策略改进)

七月算法强化学习 第三课 学习笔记

如何保证每个状态行为对(Q,a)都可以被访问到?
确保历经每个状态行为对, π(a|s) > 0 for all a, s
每次迭代确保 π’≥π(回顾policy ordering)七月算法强化学习 第三课 学习笔记

实时在线决策:
1)ExploitaAon:基于之前所有的信息做出最优选择&收集更多信息
2)最好的长远策略可能需要牺牲短期利益
3)只有收集到足够多的数据才能作出全局最好决策


Ø ExploraAon and ExploitaAon

1. MulA-Armed Bandit Problem

七月算法强化学习 第三课 学习笔记

2. ε-greedy strategy

七月算法强化学习 第三课 学习笔记

七月算法强化学习 第三课 学习笔记

Ø On Policy / Off Policy Learning

On Policy Learning: 探索策略与评估策略为同一策略
1)“Learn on the job”
2)Learn about policy π from experience sampled from π
Off Policy Learning:探索策略与评估策略为不同策略
1)“Look over someone's shoulder”
2)Learn about policy π from experience sampled from μ
3)Learn from observing humans or other agents
4)Re-use experience generated from old policies π1, π2, …, πt-1
5)Learn about opAmal policy while following exploratory policy
6)Learn about mulAple policies while following one policy

1. Monte Carlo Method

1)On Policy Monte Carlo

七月算法强化学习 第三课 学习笔记

2)Off Policy Monte Carlo

七月算法强化学习 第三课 学习笔记
2. TD Method: 

1)Sarsa (on policy TD)

七月算法强化学习 第三课 学习笔记

 2)Q-Learning (off policy TD)

七月算法强化学习 第三课 学习笔记