3.1 “智能体-环境”交互接口

下面先介绍一些基本的MDP概念。

智能体（agent）：用来学习并作决定的一个机器。可以是一个自动行走的机器人；可以是下围棋的阿法尔狗；也可以是一台自动驾驶的汽车。
环境（environment）：智能体以外并且与智能体有交互的任何东西都可以称之为环境。
状态（state）：所有可以用的信息（一般都是智能体所观测到的环境的信息），智能体可以用来决定下一步反应以实现预设的目标。比如说自动驾驶的汽车观察到前方五米有一个小男孩以5m/s的速度跑过来，那么为了防止撞到小男孩可以用来做出下一步行动的5米、5m/s和一个男孩向我（也就是智能汽车）跑来这三个信息都可以称之为状态。
动作（action）：智能体根据自己预设的程序根据当前的状态所作出的反应，并且作用到环境，使环境发生改变，同时也会使自己发生改变。
收益（reward）：当智能体做出一些动作后，环境和自身的状态都可能会发生改变，根据改变后的状态，我么人类可以给智能体一定的反馈，这个反馈可以是正也可以是负，但统称之为收益。这也是智能体在自主学习的过程中想要最大化的一个参数，在实现收益最大化的同时实现自身的预设功能。
如上图所示是智能体和环境之间的一个交互过程。在时刻t，智能体观测到环境的一个状态S_t，并且做出一个动作A_t。在下一个时刻t+1，智能体收到一个收益R_t+1，并且观测到新的状态S_t+1。

【强化学习】第三章：有限马尔可夫决策过程

3.1 “智能体-环境”交互接口

相关推荐