强化学习（RL）初印象百度 PARL

人类追求的智能是什么?

对人类来说,人的智能可以分为两部分:

强化学习（RL）初印象百度 PARL

后天的学习一般分两种:

举个例子，一个人如果一出生就与世隔绝的话，他很有可能学不到任何东西。一个小孩，他从一出生开始就会挥一下胳膊、瞪一下腿，其实就已经开始和周围的环境产生的交互。交互会产生经验，小孩子会慢慢地知道做什么事情，大家会笑;做什么事情会被批评。

强化学习是一门灵感来源于心理学的学科。每个人都是过去经验的总和，你过去的经验造成了现在的你。

人类的智能是学习而来的,那人工智能可以像人类一样"学习"吗?

人工智能可以像人类一样"学习"吗?

答案是肯定的!

强化学习（RL）初印象百度 PARL

监督学习就是让人工智能像人类一样去模仿,给他一个样本,然后用神经网络训练一个模型,去学习怎么根据现有的样本预测新的数据

而更吸引人的是强化学习,他追求的是像人一样的自学,在没有人教学的情况下只能自己和环境交互,在交互中学习。这时又分为两种情况:

已知的环境,就好像有一张地图,可以提前规划路径

未知的环境,只能勇敢地探索与不断地试错

当然,在未知的环境里学习是更加困难的

强化学习（RL）初印象百度 PARL

什么是强化学习

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
核心思想：智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。

注意：从环境中获取的状态，有时候叫state，有时候叫observation，这两个其实一个代表全局状态，一个代表局部观测值，在多智能体环境里会有差别，但我们刚开始学习遇到的环境还没有那么复杂，可以先把这两个概念划上等号。

强化学习（RL）初印象百度 PARL