站在AI与神经科学交叉点上的强化学习

来源： 混沌巡洋舰

一，强化学习概述

让机器来决策，首先体现在如何模仿人类的决策。对于决策这个问题，对于人类是困难的，对于机器就更难。

而强化学习，就是一套如何学习决策的方法论。

强化学习最初的体现就是试错学习，因此理解强化学习的第一个层次就是如何通过一个简单的机制在不确定的环境下进行试错，掌握有用的信息。

在这个框架下，我们需要掌握的只有两个基本要素，一个是行为，一个是奖励。在这个级别的强化学习，就是通过奖励，强化正确的行为。

所谓行为，行为的定义是有限的选项里选一个，所谓智能体的决策，走哪一个都有正确的可能，但是我们预先不知道这个东西。

所谓奖励，就是环境在智能体作出一个行为后，给它的反馈。

大家看到，如果这个奖励是已知的，那么也就没有了任何的游戏需要进行的可能了。你为什么要学？每个行为得到的后果是不知道的啊！奖励具有随机性，同样的条件性，有的时候我们可以得到奖励，有时候没有，奖励可以是正向的，也可以是负向的（惩罚）。

其实生物的进化史可以看作是强化学习的前传，细菌和十亿年的的恶略环境下棋，把对哪些化学物质该如何转化这个信息深深的埋藏在了它的DNA里，因此才可以有如今如此从极地到大漠的如此伟大的适应性。这种方法的缺陷是被动，所以速度慢。而强化学习可以更主动的试错。

由于决策与控制问题的重要性，强化学习被用在或有潜力被用在从智能制造，无人驾驶，智能交通，算法交易，智能分布式控制（电网），医疗机器人，对话机器人等所有领域。这些在巡洋舰之前的文章都有涉及，这一篇的目的是进一步增大之前文章的理论深度，通过对目前一些文献的总结，从跨学科的角度看待强化学习的未来发展。

二强化学习与神经科学的交叉历史：

1，强化学习的心理学背景:

强化学习之父sutton & button 有着极强的心理学和计算机交叉背景，而强化学习的思想根源，与早期的条件反射理论有很深的渊源。动物行为的根据在于最大化奖励，那么如何从奖励到行为？早期的强化学习理论立足解释这个心理学现象，并且用一套完整的数学公式表达这个过程（Rescorla and Wagner formula），而之后演绎出非常完整的TD学习公式，称为整个model free reinforcement Learning的根据。

这套数学理论的核心是正确行为的核心在于正确预测未来奖励，虽然对未来的预测总是不准确的，我们却可以随着证据的增加用迭代的方法逼近正确。新的预测和之前的预测的差距被称为TD误差（我们可以称之为超乎预料的量）。强化学习的理论指出，虽然绝对的预测不可得到，当这这种下一步和当下步的奖励预测之差逐步趋零，我们就达到了强化学习的最优状态。因此，最终学习的直接目标不是奖励最大，而是最小预测误差。这个理论可以极好的解释一级和二级条件反射的心理学现象(通过值函数建立一系列刺激和最终奖励的联系，例如狗听摇铃分泌唾液是因为奖励的预期)。

有了TD误差，如何优化决策（行为）呢？毕竟它只是对奖励的估计啊。但是不要忘了预测是行为的基础，有关行为的优化，强化学习分成两种不同的实现方法，一种是基于这个TD误差的估计直接修改不同行为的概率，好比当上一步的行为导致现实低于预期，那个那个行为的概率就要减小，反之亦然（policy gradient, actor-critic）。另一个方法是直接把行为本身当作预测函数的一个变量，这样直接每次直接找到对应最大预期的行为就可以了，无形种把行为控制放到了预测里(Q learning)。这两种方法构成强化学习的两大基本方法。

强化学习的理论可以看作心理学启发下，实现的极为成功的数学算法，最初级版本的强化学习，翻译成算法，并和深度学习那套结合，就会得到当下的深度强化学习标准框架，其极大成者，就是以DQN，DRQN为代表的深度强化学习。深度强化学习成为了人工智能浪潮中最明亮的一颗星。从阿法狗，阿法元，到打星际的AI，打德扑的AI，无疑没有它的身影。

事实上，深度强化学习无非是之前的强化学习，加上深度学习的羽翼的一次巨大飞跃。而其中的关键，在于神经网络的表达能力，为强化学习解决了一个特别重大的问题，就是值函数和策略梯度的表达。因为之前的强化学习，依赖一个巨大的行为状态表，和依赖它的策略梯度函数。这个东西在现实的game里可不可行，当然no，真实的游戏显然不能简单归纳到一张表上。而用深度神经网络，我们可以不需要找到这张几乎无限大的行为状态表，而是用深度网络来，仅仅用极为有限的观测输入，来逼近这张表，或者对无穷多的状态进行归纳，无论是时间维读还是空间维度的拓展。这就是从阿法狗，到Atari，到星际的一个核心机密。

反之，强化学习算法也支撑了人们对生物神经系统如何实现强化学习的探究。

强化学习在生物神经系统的实现

如果人或动物真的在进行类似刚刚归纳的强化学习，那么它必然有其依赖实现的神经基础。那么这个神经实现是什么呢，就是如何实现刚刚说的算法。首先谁是期望（预测）误差？一种主流观点认为 dopamine 神经元能够代言这个角色。很多人认为dopamine是代表快乐的神经递质，而事实上，神经科学家发现更准确的描述是它其实传递的是刚刚说的TD误差，也就是一种对未来奖励的预计和之前的心理基准的比较。也是为什么真正的快乐总是在于进步而非奖励本身，当我们得到一个超乎预期的结果，会特别高兴，反之沮丧。

Niv, Yael, Michael O. Duff, and Peter Dayan. "Dopamine, uncertainty and TD learning."Behavioral and brain Functions1.1 (2005): 6.

那么算法里的行为改进部分呢？更多的神经元根据支持第一种算法，这时候我们发现了cortico-basal ganglia回路。basal ganglia 作为价值枢纽可以对存储在其它脑区中的可选行为进行评价，完成类似于actor-critic的算法。

Khamassi, Mehdi, et al. "Actor–Critic models of reinforcement learning in the basal ganglia: from natural to artificial rats."Adaptive Behavior13.2 (2005): 131-148.

Barto, Andrew G. "1 ‘1 Adaptive Critics and the Basal Ganglia,.’."Models of information processing in the basal ganglia215 (1995).

Ito, Makoto, and Kenji Doya. "Multiple representations and algorithms for reinforcement learning in the cortico-basal ganglia circuit."Current opinion in neurobiology21.3 (2011): 368-373.

Houk, James C., and Steven P. Wise. "Distributed modular architectures linking basal ganglia, cerebellum, and cerebral cortex: their role in planning and controlling action."Cerebral cortex5.2 (1995): 95-110.

Maia, Tiago V., and Michael J. Frank. "From reinforcement learning models to psychiatric and neurological disorders."Nature neuroscience14.2 (2011): 154.

Reward-based training of recurrent neural networks for cognitive and value-based tasks H Francis Song1 , Guangyu R Yang1 , Xiao-Jing Wang1,2*

Reinforcement learning in artificial and biological systems。两个不同的奖励学习回路，左边的擅长学习感知的来的不同object的value，右边擅长学习biology和cognitive process的value

既然强化学习的历史表明它来源于心理学启发，又反哺了神经科学，那么进一步讲，当下的神经科学中的强化学习与AI中的强化学习各自发展出了核心区别？Reinforcement learning in artificial and biological systems 给出了非常有趣的对比，要点如下：

Neftci, Emre O., and Bruno B. Averbeck. "Reinforcement learning in artificial and biological systems."

1，生物强化学习是一个多尺度的连续学习过程，而当下的强化学习目前只有单一的时间尺度。

生物的强化学习旨在提高多任务的学习性能，通过连续多阶段的学习来得到可以在不同任务间迁移的能力， AI强化学习目前集中于单任务学习。生物系统对值函数的学习也分为不同时间尺度。

Reinforcement learning in artificial and biological systems 杏仁核与纹状体学习不同时间尺度的value function，一个善于快速适应，一个擅长较稳定的学习

2，生物强化学习是一个多层级的hierarchical system, 而当下的强化学习这一思想还处于初级阶段。

3，目前的AI强化学习把算法强行切割成有模型和无模型学习，生物系统的适应方式要灵活的多。

此处涉及关于免模型学习与有模型强化学习：强化学习成立之初进行的游戏十分简单，通过状态是已知给定的。而当游戏变得越来越复杂，之前提及的方法就面临一个致命的缺陷，也就是由于强化学习agent对世界的结构未知，通过随机行为得到的奖励或惩罚更新值函数变得越来越不可行。因为这个游戏太大了，这种采样效率到了天荒地老也只是学到了冰山一角的状态。那么如何掌握这种超大游戏呢? 一个假设是生物通过预测整个游戏的结构，来达到四两拨千斤的目的。这种改变被称为有模型强化学习，也就是每一步agent都可以遇到到环境变化的下一步状态，或者掌握整个环境的状态迁移矩阵。

生物系统的有模型学习要灵活的多，而且免模型学习和有模型学习间的区别并非泾渭分明。比如某成程度上，能够在变化环境中掌握一部分不变的规则，或者学习到引起多个感官信号背后的隐变量，以及对环境的结构进行一定程度的抽象，都是一定程度具备了有模型学习的能力。

这些区别的一个综合体现就在于数据利用率的区别。一个阿法狗能够超于人类那是几十万盘棋堆出来的，人吃亏在于不可能不吃饭不睡觉活500年去下棋。但是阿法狗的学习速度事实上并不快。

但是这种暴力试错在真实生活中不可行，一个公司去设计一个依靠强化学习的自动驾驶汽车，它不可能像下围棋那样在虚拟世界暴力运算解决。

也就是说当下的深度强化学习太慢了（数据利用率太低了），真实生活中没有卵用。

那么，有没有办法解决这个数据利用率的问题呢？其实刚刚说的已经隐含了答案，继续模仿生物！

一篇叫做强化学习，快与慢的文章给出了一个可能的答复：

Botvinick, Mathew, et al. "Reinforcement learning, fast and slow."Trends in cognitive sciences(2019).

首先文章剖析了深度强化学习为什么数据利用效率低：1，模型参数的更新缓慢，随机梯度下降天生慢。2，模型缺少有效的inductive bias（网络结构太单一），大家都知道， inductive bias 通过缩小模型的可能性空间，来使得学习速率急速的上升。生物那种快速的学习能力，正在于潜藏在我们基因里的那些网络结构参数，它们共同构成了无数的inductive bias ，让我们为美食而哭泣，遇到蛇而恐惧。这些inductive bias是亿万年进化引起的，它赋予了我们快速学习的能力。

好了，如何解决梯度下降太慢的问题？

我这里问大家一个问题，生物的学习是不是比梯度下降快？答案是yes or no。生物网络对权重的改变称为plasticity，这个东西其实一点也不快。真正让生物学习快的方法在于生物的学习通常敢于不学习权重，比如你刚刚被狗咬了，是不是看到一个类似狗的什么东西会立刻躲开呢？不是你大脑里的权重变化了，而是你记住了刚刚的经历。这个方法被用到深度强化学习里，被称为episodic memory learning。我们通过一些记忆的载体，一些不同的神经网络，把一些过往的记忆存储起来，然后，当一个新的经历到来，它会被提取出来和所有的过往经历进行对比，然后从最相似的经历里，去读取它的value function。

这个想法是不是非常牛？但是这里的问题是，记忆的存储和提取都必须是快速准确的，这就重新回到了embedding的这个深度学习的核心问题。如何把信息最有效的方法表达和存储，事实上是一个编码问题。因此这个方法的使用是要建立在存在一个很好的编码网络的基础上。

然后，如何解决inductive bias的问题？我们知道inductive bias是千百年生物进化形成的。但是，通过各种各样的深度学习训练，我们或许可以用比进化更快的方法获取这些bias。这里一个重要的工作就是meta reinforcement learning - 元强化学习。元学习同样是心理学的概念，其核心含义在于通过学习获取后面学习的能力。因为学习的本质是基于一定规则，从旧有的数据里挖掘新的数据的含义。那么规则从哪里来呢？有些是我们直接从人类的知识里获取的。比如卷积网络和循环神经网络，它们分别代表了空间和时间平移不变性，它是从我们的神经学知识里发掘出来的。如果我们预先不知道，机器可不可以掌握这样的规律？meta reinforcement learning 认为是可以的。通过训练RNN进行一连串不同但相关的任务， RNN可以发现在不同的任务背后类似的共同结构或规则。这些结构或规则被RNN利用其动力学表达出来，因此在学习类似的任务时候，速度就会非常快，甚至不用学习。这个方法展示了神经网络学习inductive bias 的可能性。

Wang, Jane X., et al. "Prefrontal cortex as a meta-reinforcement learning system."Nature neuroscience21.6 (2018): 860.

Wang, Jane X., et al. "Learning to reinforcement learn, 2016."arXiv preprint arXiv:1611.05763.

除了上述方向，强化学习的其它前沿方向包含：

1，层级强化学习: hierarchical reinforcement learning.

对于复杂世界的任务，如做饭，你在传授一个策略的时候，显然会把策略的整体分解为一些大的基本步骤，而每个基本步骤又分为很多小步骤，是为有层级的强化学习。

thegradient.pub/the-pro

2，强化学习和因果推理：

强化学习的世界模型部分依赖于理解自身行为对世界的影响，而这其中的内涵与因果推理密切相关。

Ha, David, and Jürgen Schmidhuber. "World models."arXiv preprint arXiv:1803.10122(2018).

3，强化学习和好奇心

强化学习的核心是探索和收益的平衡，而好奇心可以极大的增益强化学习agent的探索效率。

有的算法甚至直接给agent引入一个称为intrinsic motivation的指标，引导它合理的利用好奇心作为内在动机更好的探索新的环境。

Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017.

4，强化学习与贝叶斯

强化学习的核心框架均建立在概率之上，这些条件概率的计算必然包含先验的知识和新增加数据引起的增益。利用贝叶斯框架可以大大加快强化学习agent探索的效率，其实一个经典的例子是解决躲避**机的thomas sampling方法。

5，强化学习与进化算法的结合

这里最好的例子是阿尔法star，通过很多网络组成的策略池，迭代推倒最优策略，因此能够在星际争霸这种非完全信息马尔可夫游戏中超越人类。

总结：

突破当下人工强化学习的局限的核心之核心，在于如何把有关世界结构的知识或规则，嵌入到神经网络中，供后续的强化学习使用。而对于这个问题背后的更根本的问题，是知识或规则本身，该如何去表达，知识或规则的本质是什么。因此表征学习与强化学习，是密不可分的两个过程。世界模型和深度网络加持都有助于解决表征问题，而无论哪种方法都其实是冰山一角，元强化学习，多阶段强化学习，多层级强化学习，都从各个角度提出了可能的解决方法。

站在AI与神经科学交叉点上的强化学习

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

站在AI与神经科学交叉点上的强化学习

站在AI与神经科学交叉点上的强化学习

相关推荐