1 废话

一星期前上完了 Davild silver 的强化学习的公开课，记了些笔记，为了再巩固一下，写几篇博客总结一下，毕竟能讲清楚和能听懂还是有很大差距的。先介绍一下 David silver 吧，Alpha go 的项目负责人，也是 nature 上 alpha go 那篇论文的一作加通讯作者，在强化学习领域，Deep mind 和 Open AI 可以说独领风骚吧，所以 David silver 的课还是很值得一看的。很多人推荐的 Richard Sutton 的书我没看，近期也没打算看，感觉这门课比较基础，通过这门课就算是把基础给打了，打算总结完过一段再看看伯克利的那个强化学习课，更加深入一下。好了，废话不多说了，开始总结。

2 整体介绍

首先做一个整体的总结吧，这节课一共是10节课，我在bilibili上看的，分享两个链接，一个是没有字幕的但比较清晰的：https://www.bilibili.com/video/av10576305，另外一个是有中文字幕的，但画质较模糊一些：https://www.bilibili.com/video/av9831889。还有课程的课件，包括每节课的PPT和最好的考试及答案，网页链接为：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

这节课共10节课，每节课所讲的内容如下：

（1）Introduction to Reinforcement Learning

（2）Markov Decision Process

（3）Planning by Dynamic Programming

（4）Model-Free Prediction

（5）Model Free Control

（6）Value Function Approximation

（7）Policy Gradient Methods

（8）Integrating Learning and Planning

（9）Exploration and Exploitation

（10）Classic Games

前几节课听得还可以，后几节课听的稍微有点懵逼，希望我总结一下可以理解的更深刻一些吧！下面就按照顺序进行总结，最后再写一个整体的总结，争取每一节课写一篇博客吧~

3 第一节课：强化学习介绍

3.1 概述

说起强化学习，大家一定都会想到监督学习和无监督学习。简而言之，监督学习需要知道期望输出，而无监督学习不需要，也就是说监督学习需要我们告诉他正确的结果，而无监督学习不需要。但是强化学习是什么呢？我举一个简单的例子，也是我最爱的例子来说明：就是婴儿学习走路的过程：

婴儿期初是不知道怎么走路的，于是随机尝试着走路，但是开始走不稳，就会摔倒，摔倒了呢就会感觉到疼痛，于是下次就不这么走了，就这样反复尝试，就学会走路了。

强化学习也是不需要告诉它正确的结果的（不能直接告诉婴儿每个关节转多少度，每块肌肉用多大的力），而是只需要告诉它它做的对不对（摔倒与否），或者说是给它的行为做一个打分，做的越好打分越高，做的越不好打分越低（摔倒的疼痛高，走的越差，走的越慢，摔得越疼），它自己反复尝试最终做的趋于最好（学会走路）。

我一直认为强化学习就是无监督学习中的一种，但是看 david 的课感觉并非如此，他对于这三种学习方式是用了图1来描述，可见三者互有交集，当然我们也不过分纠结于此，没准发展着发展着发现其实他们是一个东西呢。

David silver 强化学习公开课笔记（一）：介绍

图1 三种学习方式关系图

3.2 基本名词解释

3.2.1 Agent 和 Environment

在介绍其他名词前我们必须先介绍这两个对象，因为一切都是基于这两个对象而存在的。还以婴儿学习走路来说明，agent 就是婴儿，就是尝试学习某一件事的智能体。environment 就是婴儿之外的物理世界。agent 在运动的过程中会与 environment 交互，而交互的结果就由environment 反馈给 agent。图 2 中大脑就是 agent，地球就表示的 environment 。而接下来要介绍了 action，reward 和 observation 也在图中展现出来。

David silver 强化学习公开课笔记（一）：介绍

图2 强化学习结构图

3.2.2 Action

Action 即为 agent 每次尝试的动作。

3.2.3 Reward

agent 每次执行完某一个 action 后， environment 会反馈一个结果，也就是我在3.1中所介绍的得分，其实就是 Reward，agent 的行为做的越好，reward 就越高。

3.2.4 Observation

在婴儿学习走路的时候，他是能获得对环境的感知的，比如眼睛可以看到地是否是平的、脚可以通过压力感知到自己是不是站好了、身体还可感知到重心是不是偏了等等，这些 agent 感知到的环境信息我们称之为 observation。

3.2.5 State 和 History

history 就是一个序列，包括了过去的所有 observation、action 和 reward。相当于婴儿过去的每一次的经历的总和。

David silver 强化学习公开课笔记（一）：介绍

state 表示 agent 目前所在的状态，用来决定未来将会发生什么，他其实是对于 history 的一个函数。

David silver 强化学习公开课笔记（一）：介绍

3.2.6 三种 State

三种 state 分别是 agent state，environment state 和 information state。

agent state 为 agent 内部状态，其作用为得到 observation 后决定输出的 action。

environment state 是环境的内部状态，其作用为得到 agent 的 action 后决定输出的 reward 和 observation。

information state 也就是 Markov state（马尔科夫状态），他包含了历史所有有用的信息。它的定义如下：

David silver 强化学习公开课笔记（一）：介绍

3.2.7 Policy

中文名为“策略”，在婴儿学走路的例子中，婴儿根据当前的状态和感知到的信息来决定下一次的动作，那这个动作是如何决定的呢，其实就是根据自己的 policy 决定的，如果当前的状态包括的当前的 observation，那么，policy 就是 state 到 action 的映射。定义为如下式子：

David silver 强化学习公开课笔记（一）：介绍

举一个走迷宫的例子，如图3所示，reward 为每走一步-1，action 为上下左右走一步，state 为 agent 的位置。

David silver 强化学习公开课笔记（一）：介绍

图3 迷宫示意图

那么，policy 就表示为每个 state 应该向哪个方向走，如图 4 所示。

David silver 强化学习公开课笔记（一）：介绍

图4 迷宫 policy 示意图

3.2.8 Value Function

这里是“值函数”，其实值函数有两种，第一节课上并没有说清楚，一种是状态值函数，一种是动作值函数，课上讲的其实就是状态值函数。

状态 S 的值函数的含义为：从 S 状态起到终止状态，能获得的 reward 是多少，表示一个状态的好坏程度。当然未来的 reward 与状态 S 可能有关系，但并不一定是决定性的关系，所以通过未来的 reward 计算 S 状态的值函数时会加一个“折扣”。状态值函数定义如下式：

David silver 强化学习公开课笔记（一）：介绍

在迷宫的例子中，值函数就表示从当前位置走到终点后得到的 reward 之和（“折扣”为1），如图 5 所示。

David silver 强化学习公开课笔记（一）：介绍

图5 迷宫状态值函数示意图

动作值函数表示某一个动作的好坏，这在后面会详细讲解。

3.2.9 Model

模型预测 agent 做出 action 后将会得到什么样的 reward 和 state。在婴儿学走路的例子中，model 就是预测他用某个动作走一步后会不会摔倒、会不会重心不稳、会不会站稳等（动作完成后的 state 和 reward）。Model 可以用两个变量来表示：

David silver 强化学习公开课笔记（一）：介绍

同样的在迷宫的示例中，model 即预测每走一步后的 state（位置）和得到的 reward，如图 6 所示，但是下一次的 state 未表示出来。

David silver 强化学习公开课笔记（一）：介绍

图6 迷宫 model 示意图

3.3 强化学习的分类

有两种分类方式，且互有交叉。第一种分为 value based、policy based 和 AC，如图 7 所示。

David silver 强化学习公开课笔记（一）：介绍

图7 第一种分类方式

第二种分类基于有无模型进行分类，分为 model free 和 model based 如图8所示。

David silver 强化学习公开课笔记（一）：介绍

图8 第二种分类方式

两种分类方式及几种类别的关系如图 9 所示：

David silver 强化学习公开课笔记（一）：介绍

图9 各种类别关系图

3.4 Exploration（探索）and Exploitation（开发）

这部分内容是对学习过程中 policy 选择的讨论。就比如我们吃饭，很多餐厅是我们吃过的，而有一些餐厅我们没有吃过，那么我们到哪里吃饭呢？这里其实有两种选择，一种是到没吃过的地方尝尝鲜，但是我们并不知道他好吃不，这就是 exploration；还有一种情况就是去我们吃过最好吃的地方去吃，这就是 exploitation。课程中对两者的定义如下：

David silver 强化学习公开课笔记（一）：介绍

3.5 Prediction 和 Control

这两者我在上第一节课的时候并没有搞懂，也是后边详细讲解的时候才明白的。其实也很简单。

所谓 prediction，就是给定一个策略，我去预测未来（通常是计算值函数）。

所谓 control，就是找到一个最佳的策略，去最大化未来的受益（计算值函数的同时更新策略，使得策略最优）。

4 最后的废话

终于写完了，太不容易了，本来计划1个小时写一节课，但是最终竟然写了2个多小时，稍微有点浪费时间了，不过还是希望对我以后有帮助吧，忘了可以回来再复习复习，毕竟博客上写的还是比我的笔记清晰的。

David silver 强化学习公开课笔记（一）：介绍

1 废话

2 整体介绍

3 第一节课：强化学习介绍

3.1 概述

3.2 基本名词解释

3.2.1 Agent 和 Environment

3.2.2 Action

3.2.3 Reward

3.2.4 Observation

3.2.5 State 和 History

3.2.6 三种 State

3.2.7 Policy

3.2.8 Value Function

3.2.9 Model

3.3 强化学习的分类

3.4 Exploration（探索）and Exploitation（开发）

3.5 Prediction 和 Control

4 最后的废话

相关推荐