博弈论笔记


前言

博弈模型,博弈策略,博弈评判,特殊博弈,马尔科夫博弈,强化学习

一、博弈模型

一个博弈模型包括:
玩家集合
策略收益
收益函数

囚徒问题

博弈论笔记
玩家集合{P1,P2}
策略集合{C(合作:cooperation),B(背叛:btray)}
收益函数:{0y,1y,2y,3y}(被判处0年,1年,3年,6年)

基于囚徒问题的基本假设:
1.囚徒们同时决策
2.囚徒们已知策略集合和收益函数
3.囚徒们都是,理性的

二,基于囚徒问题的博弈策略1

占优策略(Dominate Strategy)
(分为强占优策略和弱占优策略)

解释:不管对方的决策是什么,我的决策都是最好的。
例如囚徒们的效用矩阵如下:
博弈论笔记
不管P1选择C还是B,P2选B都是占优策略。因为当P1=C,对于P2的效用10>8;当P1=B,对于P2的效用5>0。
同理,P1选B也是占优策略。
所以,如果双方都是理性的,那么最后结果会收敛到(5,5)

而且!对于P1,因为效用10>8,5>0。所以称B是强占优策略。
同理,对于P2的效用:10>8,5>0。所以B也是P2的强占优策略。

其他情况则为弱占优策略

对于严格劣策略(强占优策略):代表其他所有策略总是比这个策略更优秀,它永远不会成为最优回应best reply
在任何情况下总有别的策略更好,因此,我们把严格劣策略从博弈中剔除
重复迭代的意思是:我们剔除它们,得到了一个更简单的博弈,然后再做同样的事情。现在可能又有了一些策略是严格劣势的,在这个简化的博弈中博弈者永远不会采取它们,因此我们再把它们剔除,循环反复,最后给我们了一些预测。当博弈者理性 他们也认识到其他博弈者理性时是合乎逻辑的结果 ,这些策略就会在这个子博弈中。
进行这个过程的术语称作严格劣策略重复剔除(Iterated elimination)

三, 基于囚徒问题的博弈策略2

纳什均衡(Nash Equibrium)
解释:双方都处于最佳应对策略。
如图,(5,5)是一个纳什平衡
博弈论笔记

注意:不是所以的博弈都存在纳什平衡;有的博弈存在多个纳什平衡。

而如下图所示,在这个效用矩阵中,没有纳什平衡
博弈论笔记

而在,如下图所示的效用矩阵中,则有多个纳什平衡
博弈论笔记

另外,用Iterated elimination反复消除强占优策略时,不会消除纳什平衡;但反复消除弱占优策略时,有可能删除纳什平衡。

四,混合策略的纳什平衡

混合策略可以看成一种随机选择,例如,如果你重复囚徒问题,并且每次都用相同的方法去玩,那么结果就会变得可预测。
对于任意一个博弈,必定存在一个混合策略的纳什平衡
案例和解法详见博客链接
要看,是重点!

(以下为拓展内容)

五,Stackelberg平衡

如果改变囚徒问题的假设1:囚徒们同时做出决定。
变成囚徒们作出决定时存在先后顺序。
在这种情况下的纳什平衡称为Stackelberg平衡

六,协同问题

存在多个纳什平衡的情况下,如何选择的问题称为协同问题。
协同问题的解决方法一般是人为的制定规则:比如制定通讯机制或者社会规则等等

七,特殊博弈

特殊博弈分为合作博弈和竞争博弈
合作博弈(cooperation Game)追求所以玩家收益均等
竞争博弈(competitive Game)要求玩家收益之和固定,例如经典的零和博弈

八,马尔科夫博弈

博弈论笔记
增加了状态集合和转移函数,即相对于之前的博弈,增加了环境因素,玩家的决策要考虑实时的环境因素,而且对于对手和自己的效用函数可能也是未知的。在这种情况下,优化博弈的算法称为强化学习

九,强化学习

解释:在一定环境下,做收益最大化的学习。
学习目标一般有以下几个:
1.追求纳什平衡
2.最求


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。