深度增强学习David Silver（八）——Integrating Learning and Planning

本节课主要讲：

model用一个具有参数η的MDP⟨S,A,P,R⟩表示。它告诉我们怎么从一个状态转移到另一个状态，和发生动作之后的奖励。假设S和A都已知，则Pη≈P,Rη≈R。

model-based RL的优点是可以通过监督学习直接学习模型，推导出模型的不确定性。缺点是首先学习环境模型和建立价值函数会导致两种估计误差。

model-based RL对于环境模型的学习是监督学习。输入状态、行动学习奖励，是一个回归问题，输入状态、行动学习下一个状态是密度估计问题。模型有多种选择，以table lookup model为例。用N(s,a)表示状态行动对的经过次数。

P^a s, s' = 1 N (s, a) \sum t = 1 T 1 (S t, A t, S t + 1 = s, a, s') R^a s = 1 N (s, a) \sum t = 1 T 1 (S t, A t = s, a) R t

计算出环境模型之后，就可以根据模型进行planning。环境模型不准确将会导致planning计算出一个次优的策略。解决方法如下：

sample-based planning是一种很有效的方法——将环境模型看做环境，用模型产生样本，然后用model-free RL（比如Monte-Carlo控制、Sarsa、Q-learning等）来学习计算出价值和奖励。

接下来考虑两种训练经验来源：

Dyna是一种同时采用这两种训练经验的方法。Dyna-Q算法如下：
深度增强学习David Silver（八）——Integrating Learning and Planning

(a)-(e)是从真实环境中提取经验的方法。(f)步从模型中提取经验。

前向搜索（Forward search）是一种通过向前看来选择最好行动的方法。他们以状态st为根部建立一棵搜索树，使用MDP模型向前看。前向搜索使用sample-based planning，从st开始，运用model-free RL进行模拟。

将前向搜索和Monte-Carlo控制结合，以下是简单的Monte-Carlo搜索：

MCTS(Monte-Carlo Tree Search)进一步优化，分为评估（evaluation）和模拟（simulation）两个过程。
评估：

模拟：

MCTS的优点：优先选择最好的行动；动态评估状态；使用sampling打破维度的限制；只需要samples；计算有效，可并行。

Temporal-Diffrence Search使用TD代替MC，MCTS采用MC控制，TD Search采用Sarsa。二者比较如下：
深度增强学习David Silver（八）——Integrating Learning and Planning

TD Search：