强化学习之马尔科夫决策过程 5

马尔科夫决策过程在离散马尔科夫的基础上，引入奖励和动作。马尔科夫性表示t+1的状态只与t时刻有关。在马尔科夫决策过程中，agent已知一系列状态，动作和折扣率，但是一步的环境动态特性和rewards是不知道的。

强化学习之马尔科夫决策过程 5

次图描述了马尔科夫决策过程。图中唯一个自动充电吸尘器，他有2个状态high电量和low电量，有3个动作wait，search，recharge。蓝色的数字代表采取该行动的概率，黄色代表收获的reward。例如吸尘器处于low状态，如果采取行动search的话
接下来的状态可能是high电量或者low电量。0.8的概率会在search的过程中没电需要人帮忙充电，给予智能体-3的奖励。
0.2的概率会依然有电，打扫完奖励4，到达low状态。