周志华 机器学习 Day29

                                                  强化学习

任务与奖赏

周志华 机器学习 Day29

通过不断的摸索、学习,能总结出好的学习策略,这个过程抽象出来,就是“强化学习”。

强化学习任务通常用马尔可夫决策过程(简称MDP)来描述:机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述;机器能采取的动作构成了空间A;若某个动作a∈A作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态;并且在转移到另一个状态的同时,环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏。综合起来,强化学习任务对应了四元组周志华 机器学习 Day29其中周志华 机器学习 Day29指定了状态转移概率,周志华 机器学习 Day29指定了奖赏;在有的应用中,奖赏函数可能仅与状态转移有关,即周志华 机器学习 Day29

周志华 机器学习 Day29

 

K-摇臂**机

1、探索与利用

与一般监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,几遍在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。

实际上,单步强化学习任务对应了一个理论模型,即“K-摇臂**机”。如下图所示,K-摇臂**机有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。

周志华 机器学习 Day29

若仅为获知每个摇臂的期望奖赏,则可采用“仅探索”法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后一每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。若仅为执行奖赏最大的动作,则可采用“仅利用”法:按下目前最优的(即到目前为止平均奖赏最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个。

事实上,“探索”(即估计摇臂的优劣)和“利用”(即选择当前最优摇臂)这两者是矛盾的,因为尝试次数(即总投币数)有限,加强了一方则自然削弱另一方,这就是强化学习所面临的“探索-利用窘境”。显然,欲积累奖赏最大,则必须在探索与利用之间达成较好的折中。

2、ε-贪心

ε-贪心法基于一个概率来对探索和利用进行折中:每次尝试时,以ε的概率进行探索,即以均匀概率随机选取一个摇臂;以1-ε的概率进行利用,即选择当前平均奖赏最高的摇臂(若有多个,则随机选取一个)。

周志华 机器学习 Day29

 

周志华 机器学习 Day29

经过第n次尝试获得奖赏Vn后,平均奖赏应更新为

周志华 机器学习 Day29

周志华 机器学习 Day29

3、Softmax

Softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中。若各摇臂的平均奖赏相当,则选择各摇臂的概率也相当;若某些摇臂的平均奖赏明显高于其他摇臂,则它们被选取的概率也明显更高。

周志华 机器学习 Day29

周志华 机器学习 Day29