强化学习之马尔科夫决策过程 5

马尔科夫决策过程在离散马尔科夫的基础上,引入奖励和动作。马尔科夫性表示t+1的状态只与t时刻有关。在马尔科夫决策过程中,agent已知一系列状态,动作和折扣率,但是一步的环境动态特性和rewards是不知道的。

强化学习之马尔科夫决策过程 5
强化学习之马尔科夫决策过程 5
次图描述了马尔科夫决策过程。图中唯一个自动充电吸尘器,他有2个状态high电量和low电量,有3个动作wait,search,recharge。蓝色的数字代表采取该行动的概率,黄色代表收获的reward。例如吸尘器处于low状态,如果采取行动search的话
接下来的状态可能是high电量或者low电量。0.8的概率会在search的过程中没电需要人帮忙充电,给予智能体-3的奖励。
0.2的概率会依然有电,打扫完奖励4,到达low状态。