强化学习(RL)初印象 百度 PARL

人类追求的智能是什么?

 

对人类来说,人的智能可以分为两部分:

强化学习(RL)初印象 百度 PARL

  • 一小部分是天生遗传的
  • 绝大部分是要依靠我们出生之后的努力学习

后天的学习一般分两种:

 

  • 一种是有前人的经验了,我们直接模仿,依葫芦画瓢。
  • 另一种是没有任何的经验,我们只能在摸索中去前进和环境交互、探索

举个例子,一个人如果一出生就与世隔绝的话,他很有可能学不到任何东西。一个小孩,他从一出生开始就会挥一下胳膊、瞪一下腿,其实就已经开始和周围的环境产生的交互。交互会产生经验,小孩子会慢慢地知道做什么事情,大家会笑;做什么事情会被批评。

 

强化学习是一门灵感来源于心理学的学科。每个人都是过去经验的总和,你过去的经验造成了现在的你。

 

人类的智能是学习而来的,那人工智能可以像人类一样"学习"吗?

 

人工智能可以像人类一样"学习"吗?

答案是肯定的!

强化学习(RL)初印象 百度 PARL

 

监督学习就是让人工智能像人类一样去模仿,给他一个样本,然后用神经网络训练一个模型,去学习怎么根据现有的样本预测新的数据

 

而更吸引人的是强化学习,他追求的是像人一样的自学,在没有人教学的情况下只能自己和环境交互,在交互中学习。这时又分为两种情况:

 

已知的环境,就好像有一张地图,可以提前规划路径

未知的环境,只能勇敢地探索与不断地试错

当然,在未知的环境里学习是更加困难的

强化学习(RL)初印象 百度 PARL

 

什么是强化学习

  • 强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
  • 核心思想:智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。

注意:从环境中获取的状态,有时候叫state,有时候叫observation,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。

强化学习(RL)初印象 百度 PARL

强化学习(RL)初印象 百度 PARL

 

比较典型的例子是Flappy bird:

强化学习(RL)初印象 百度 PARL

 

强化学习应用在用户个性化推荐上:

强化学习(RL)初印象 百度 PARL

 

治理交通

 

 

强化学习应用领域

强化学习(RL)初印象 百度 PARL

 

强化学习与其他机器学习的关系强化学习(RL)初印象 百度 PARL

 

强化学习与监督学习的区别

  • 强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。
  • 监督学习寻找输入到输出之间的映射,比如分类和回归问题。
  • 非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。
  • 强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
  • 监督学习处理认知问题,强化学习处理决策问题。
  • 强化学习(RL)初印象 百度 PARL

 

强化学习和监督学习的区别'

强化学习(RL)初印象 百度 PARL

 

同样都是一张小熊的图片,监督学习输出的是灰熊,强化学习输出的是装死这个动作。也就是说,监督学习关注的是认知,而强化学习关注的是决策。

 

如果换一张发怒的熊的图片,监督学习的输出是不变的,但是强化学习的输出可能要换一下动作。

 

不过监督学习也可以在输出的基础上加上if…else…判断语句,使监督学习也能输出动作,但是if…else…里的判断其实是人类的经验,是在前人的基础上总结出来的,牺牲了无数人尝试(装死的人都活下来了,逃跑的人都受到了灰熊的攻击)

 

强化学习其实就是直接把这些经验学习进来,跨越了从认知到决策的巨大鸿沟

 

如果从样本来分析的话:

 

监督学习的样本都是独立的

强化学习的上一个样本会影响下一个样本的决策

因此,监督学习是有瓶颈的,标注的样本决定了它的"天花板";而强化学习并不需要太多的样本。

强化学习(RL)初印象 百度 PARL

 

在前期的经验上 无限的探索

agent 学习的两种策略

强化学习(RL)初印象 百度 PARL

 

强化学习(RL)初印象 百度 PARL

强化学习(RL)初印象 百度 PARL

 

离散控制场景:确定的动作数量

连续控制场景:动作数量不可数