Markov Decision Processes


马尔可夫链(markov chain)

Markov Decision Processes

                                                                                     一个很简单的只有3个状态和2个动作的MDP例子


马尔可夫决策过程是一个马尔可夫链的扩展;区别是动作(允许选择)和奖励(给予激励)的加入。相反,如果忽视奖励,即使每一状态只有一个动作存在,那么马尔可夫决策过程即简化为一个马尔可夫链。