最后一节。

So far, we have mainly talked about supervised learning like image classification, segmentation by CNN and machine translation by RNN, also talked about unsupervised learning like generating image by VAE and GAN through NN, today we will talk about reinforcement learning.
We should bear in mind that deep learning is an approach to solving problems, while supervised, unsupervised, semi-supervised and reinforcement learning are problems themselves.

What is Reinforcement Learning?

CS231N-14-Reinforcement Learning

我们有Agent智能体和Environment环境。环境先给agent一个状态st，然后agent take action at，再然后环境give back reward rt和次态st+1。这就构成了一个循环，循环是由agent和环境交互Interact形成的，直到遇到终态。我们的目标就是作出的actions能最大化reward（比如累积的，或者最终的）。

Markov Decision Process MDP

CS231N-14-Reinforcement Learning

如何用数学表述呢？Markov Decision Process。马尔可夫决策过程。Markov性质是次态只和现态有关。
S是状态集，A是动作集，R是基于(S,A)pair的奖励分布（注意奖励不是确定的，是分布）。P是给定现态和动作的次态分布（毕竟次态也并非就确定了，是一个分布）。

具体markov decision process已经在课件写的很明白了。由于R和P都是概率分布，所以不确定性还是很大的。我们的objective就是找到一个policy π，是从S到A的映射（那R呢？），使得累积折旧奖励和最大。（有个折旧率）

Value Function & Q-value Function

CS231N-14-Reinforcement Learning

value function就是我们从计概黑白棋开始常说的估值函数，这里是对现态s的估值，即未来的奖励和的期望。还有q-value估值函数，是对现态s和action a的估值。

那么问题变成：如何计算value function呢？

Bellman Equation

CS231N-14-Reinforcement Learning

以上摘自https://zhuanlan.zhihu.com/p/21340755

还记得50年代的Bellman吧，算分的动态规划之父。其实动态规划和增强学习都属于MDP。Bellman方程是RL的基石，因为通过上述式子的推导，将估值的计算转化为：rt+1次态的奖励，加上λv(St+1)次态的估值，这种迭代嵌套的方式。逻辑意义上是显然的，现态的估值等于次态得到的奖励加上次态的估值的期望。

Q-learning

这是RL两大算法之一。基于估值函数。

CS231N-14-Reinforcement Learning

Policy Gradient

这是RL两大算法之二。

由于打算实践些图像处理的项目，RL部分就先搁置了。以后找时间再学习，虽然人工智能范围很广，RL很难，人专精一个领域已经不易，但一个researcher需要每个主领域都懂些，至少在和别人交流时/在面试时不是一脸懵逼。

最后摘自贾扬清大神的一段话，作为本课程的结语：

举个例子，伯克利人工智能方向的博士生，入学一年以后资格考试要考这几个内容：
- 强化学习和Robotics
- 统计和概率图模型
- 计算机视觉和图像处理
- 语音和自然语言处理
- 核方法及其理论
- 人工智能：一种现代方法中的其他方面（包括搜索，CSP，逻辑，planning，等等）

一个小时，两个教授随便出题，要求口试解答通过。挂两次的话，嘿嘿。（虽然真挂两次的不多）
如果真的想做人工智能，建议都了解一下，不是说都要搞懂搞透，但是至少要达到开会的时候和人在poster前面谈笑风生不出错的程度吧。
作者：贾扬清
链接：https://www.zhihu.com/question/40554481/answer/92284829
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

CS231N-14-Reinforcement Learning

What is Reinforcement Learning?

Markov Decision Process MDP

Value Function & Q-value Function

Bellman Equation

Q-learning

Policy Gradient

相关推荐