不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

强化学习模型

强化学习的任务目标

  • 最大化长期奖励

  • 最小化长期惩罚

强化学习能够实现很多的任务,这些任务目标往往可以归纳化为最大化长期奖励、最小化长期惩罚。比如在写论文,写完论文过审了,得到最佳论文凭证的奖学金,获得很高的引用,这些都算正强化。如果论文被拒了或是查重被查出问题了,毕不了业,这些都是负强化。强化学习目标就是要趋利避害。

JackMichael在1975年证明了正强化和负强化的等效性。也就是说,正强化和负强化是等价的。所以我们讨论最大化长期奖励,还是最小化长惩罚并没有本质区别,这是同一个问题。

强化学习最著名的模型就是智能体环境接口。该接口决策和学习的部分与其他部分分离,决策和学习的部分归为智能体,其他的部分都归为环境。举刚才写论文的例子,在写论文的例子中,我学习怎么写论文,或是决定要怎么写,这些都是属于智能体部分,但是我并不是智能体,也有很多部分是属于环境的。

比如我今天生病了,就不写论文了,那我的健康状况是属于环境。智能体环境接口的核心思想在于把主观可以控制的部分和客观不能改变的部分分开,分开以后,只需要通过三个要素,在这两部分之间进行交互,这三个要素是动作、观测和奖励。

刚刚说奖励可以是惩罚,奖励和惩罚是等价的。但是动作和观测不一定是数值的。观测可以是看到了帅气的小哥哥或是漂亮的小姐姐,这样的观测。动作可以是向前向小哥哥或小姐姐要微信。这就是自然体环境接口。

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

强化学习不一定要用智能体环境接口来解决,比如说我们可以总体调整,用几个参数来驱动整个系统,然后用其他方法来评估参数,再用进化算法,求解自由参数。这时,我们就没有用智能机环境接口。

那么既然我们可以不用自然接口演就能研究强化学习,那为什么大多数情况下我们都用智能体环境接口来研究呢,原因在于智能体环境接口可以把主观可以控制的部分和客观不能改变部分分开,使得我们可以分别研究智能体和环境,虽然在复杂的任务时,往往会有帮助。

智能体和环境之间是可以互相交互的,如果环境和智能体之间多次交互,那么智能体的决策就是一个序贯决策问题可以引入时间指标。强化学习问题不一定是序贯决策问题。

举个例子,如果智能体和环境只交互一次,那就没什么可序贯的,也没有引入时间的必要,所以强化学习问题不一定是序贯决策问题。那么对于确实是序贯决策问题的强化学习问题,我们就可以引入时间指标,我们可以有零散的时间指标也可以有连续的时间指标等分类。单次决策可以看作离散时间的一个特例。对于有限制的决策或者可数制决策,我们可以把决策实际和正整数一一对应。

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

强化学习模型

智能体环境接口

  • 能体现要解决的问题

  • 简单可求解

  • 随机决策间隔

决策时间不一定要是等间隔的,比如说我每月一号做决策,那这也是不完全等间隔的,比如说我1月1号和2月1号之间有31天,但是2月1号到3月1号之间,只有28天或29天,这就是不等间隔了。

虽然它不等间隔,我还是可以把决策时机映射到正整数底下。比如说我把1月1号映射到1,2月1号映射到2,3月1号映射到3,那就是离散时间指标了。但是,如果我的决策的时机是不可数的,那就不可能映射到正整数上。这时候,我们就会用连续时间指标来表示决策时机。比如说我从今天开始的所有时间我都可以决策,那我就可以把时间指标映射到正数数轴上。

决策时间它可以就是随机的。说决策时间间隔的随机性,比如说我投了一个会议论文,下次决策机会就是等审稿人意见,审稿人什么时候发表意见是不确定的,审稿完发什么意见以及你怎么回复,跟审稿人什么时候发表意见是有关系的。所以这个决策时间是这样考虑的,不能简单建模为离散时间或连续时间,决策时间要考虑很多的情况。

强化学习模型

智能体环境接口

  • 单智能体任务

  • 多智能体任务

那么智能体环境接口中的自然体可以有一个或是多个,如果有多个智能体,那么他并不一定同时有决策机会。某个时刻需要某些智能体有权力决策,其他智能体可能只能观察或者连观察的权利都没有,比如说吃鸡游戏某些智能体可能会落地成河,一下子就完了,他就不用决策了,还有一些人比较厉害,他可以一直玩到最后,那么他决策的机会就比较多。不是所有智能体都有相同的决策机会。

强化学习模型

智能体环境接口

  • 状态完全可观测

  • 状态部分可观测

  • 状态完全不可观测

我们知道智能体和环境之间有三个要素,智能体获得观测之后也许能获得环境知识,也许不能够获得环境知识。如果智能体什么都不知道,那就没啥可做的,那就是完全不可观测的。如果智能体什么都知道,那么就是完全可观测的。如果知道一部分则是部分可观测的。

强化学习模型

智能体环境接口

  • 概率模型

  • 组合模型

刚刚我们讨论了自然体能不能对环境进行关注的问题。也许有听众已经知道强化学习算法可以分为需要利用环境模型的算法和无利用环境模型的算法。虽然我并不一定要利用环境模型,但是我可以假设环境具有某种驱动的形式,比如说从SA可以映射到O或R。最常见的驱动方式是用概率驱动的,也就是给定S和A,给定环境和动作可以存在着某种观测O和奖励R的分布。也许我知道这个分布也许不知道,但是我假设它有个分布,这就是概率驱动模型。

环境不一定要以概率形式驱动,那还可以用什么驱动。有些问题不是定时概率的,可能是组合的,比如像井字棋、五子棋、围棋这样的组合问题,就是组合性,没有任何的随机性。如果能把组合问题强行建模成概率问题,那很可能就得不到最优解。

我们可以假设环境是概率驱动的或是组合驱动的,或者其他方法驱动的。那么我们对于一个具体的环境应该如何选择驱动模型,建模的转折应该遵循两点,第一是建模要最能体现解决的问题,也就是这个模型必须可以求解,如果模型不能体现到具体的问题,那么即使解决了模型也不能解决要解决的问题,那么这个模型就是不成功的。

强化学习模型

建模准则

  • 能体现要解决的问题

  • 简单可求解

第二是模型要简单可求解,如果我建了一个太难的模型,动弹不得,也求解不了,也没有收获心得,那这个模型也没什么用。数学模型跟真实事件肯定是不一样的,真实世界肯定是非常复杂的,模型只是真实世界的简化,所以越好模型一方面可以求解,并且求出来的解要能对真实世界的问题有帮助。

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

肖智

强化学习:原理与Python实现

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

错过了直播,后悔莫及?

扫码观看回放!

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习

往期精彩回顾

 书讯 | 4月书讯 | 一大波好书来袭,最美华章四月天

赠书 | 【第2期】学大数据分析与挖掘?看这几本书就够了
干货 | 用户画像的核心技术盘点

收藏 | 有图有真相——图神经网络到底是什么?

不只是围棋,除了AlphaGo,肖博士和你聊聊不一样的强化学习