【强化学习】第三章:有限马尔可夫决策过程

3.1 “智能体-环境”交互接口

下面先介绍一些基本的MDP概念。

  1. 智能体(agent):用来学习并作决定的一个机器。可以是一个自动行走的机器人;可以是下围棋的阿法尔狗;也可以是一台自动驾驶的汽车。
  2. 环境(environment):智能体以外并且与智能体有交互的任何东西都可以称之为环境。
  3. 状态(state):所有可以用的信息(一般都是智能体所观测到的环境的信息),智能体可以用来决定下一步反应以实现预设的目标。比如说自动驾驶的汽车观察到前方五米有一个小男孩以5m/s的速度跑过来,那么为了防止撞到小男孩可以用来做出下一步行动的5米、5m/s和一个男孩向我(也就是智能汽车)跑来这三个信息都可以称之为状态。
  4. 动作(action):智能体根据自己预设的程序根据当前的状态所作出的反应,并且作用到环境,使环境发生改变,同时也会使自己发生改变。
  5. 收益(reward):当智能体做出一些动作后,环境和自身的状态都可能会发生改变,根据改变后的状态,我么人类可以给智能体一定的反馈,这个反馈可以是正也可以是负,但统称之为收益。这也是智能体在自主学习的过程中想要最大化的一个参数,在实现收益最大化的同时实现自身的预设功能。
    【强化学习】第三章:有限马尔可夫决策过程如上图所示是智能体和环境之间的一个交互过程。在时刻t,智能体观测到环境的一个状态St,并且做出一个动作At。在下一个时刻t+1,智能体收到一个收益Rt+1,并且观测到新的状态St+1