文章目录

前言
一、博弈模型
囚徒问题
二，基于囚徒问题的博弈策略1
三，基于囚徒问题的博弈策略2
四，混合策略的纳什平衡
五，Stackelberg平衡
六，协同问题
七，特殊博弈
八，马尔科夫博弈
九，强化学习
总结

前言

博弈模型，博弈策略，博弈评判，特殊博弈，马尔科夫博弈，强化学习

一、博弈模型

一个博弈模型包括：
玩家集合
策略收益
收益函数

囚徒问题

博弈论笔记
玩家集合{P1，P2}
策略集合{C（合作：cooperation），B（背叛：btray）}
收益函数：{0y，1y，2y，3y}（被判处0年，1年，3年，6年）

基于囚徒问题的基本假设：
1.囚徒们同时决策
2.囚徒们已知策略集合和收益函数
3.囚徒们都是，理性的

二，基于囚徒问题的博弈策略1

占优策略（Dominate Strategy）
（分为强占优策略和弱占优策略）
解释：不管对方的决策是什么，我的决策都是最好的。
例如囚徒们的效用矩阵如下：
博弈论笔记
不管P1选择C还是B，P2选B都是占优策略。因为当P1=C，对于P2的效用10>8；当P1=B，对于P2的效用5>0。
同理，P1选B也是占优策略。
所以，如果双方都是理性的，那么最后结果会收敛到（5,5）

而且！对于P1，因为效用10>8,5>0。所以称B是强占优策略。
同理，对于P2的效用：10>8,5>0。所以B也是P2的强占优策略。

其他情况则为弱占优策略

对于严格劣策略（强不占优策略）：代表其他所有策略总是比这个策略更优秀，它永远不会成为最优回应best reply
在任何情况下总有别的策略更好，因此，我们把严格劣策略从博弈中剔除
重复迭代的意思是：我们剔除它们，得到了一个更简单的博弈，然后再做同样的事情。现在可能又有了一些策略是严格劣势的，在这个简化的博弈中博弈者永远不会采取它们，因此我们再把它们剔除，循环反复，最后给我们了一些预测。当博弈者理性他们也认识到其他博弈者理性时是合乎逻辑的结果，这些策略就会在这个子博弈中。
进行这个过程的术语称作严格劣策略重复剔除（Iterated elimination）

三，基于囚徒问题的博弈策略2

纳什均衡（Nash Equibrium）
解释：双方都处于最佳应对策略。
如图，（5,5）是一个纳什平衡
博弈论笔记

注意：不是所以的博弈都存在纳什平衡；有的博弈存在多个纳什平衡。

而如下图所示，在这个效用矩阵中，没有纳什平衡
博弈论笔记

而在，如下图所示的效用矩阵中，则有多个纳什平衡
博弈论笔记

另外，用Iterated elimination反复消除强占优策略时，不会消除纳什平衡；但反复消除弱占优策略时，有可能删除纳什平衡。

四，混合策略的纳什平衡

混合策略可以看成一种随机选择，例如，如果你重复囚徒问题，并且每次都用相同的方法去玩，那么结果就会变得可预测。
对于任意一个博弈，必定存在一个混合策略的纳什平衡
案例和解法详见博客链接
要看，是重点！

（以下为拓展内容）

五，Stackelberg平衡

如果改变囚徒问题的假设1：囚徒们同时做出决定。
变成囚徒们作出决定时存在先后顺序。
在这种情况下的纳什平衡称为Stackelberg平衡

六，协同问题

存在多个纳什平衡的情况下，如何选择的问题称为协同问题。
协同问题的解决方法一般是人为的制定规则：比如制定通讯机制或者社会规则等等

七，特殊博弈

特殊博弈分为合作博弈和竞争博弈
合作博弈（cooperation Game）追求所以玩家收益均等
竞争博弈（competitive Game）要求玩家收益之和固定，例如经典的零和博弈

八，马尔科夫博弈

博弈论笔记
增加了状态集合和转移函数，即相对于之前的博弈，增加了环境因素，玩家的决策要考虑实时的环境因素，而且对于对手和自己的效用函数可能也是未知的。在这种情况下，优化博弈的算法称为强化学习

九，强化学习

解释：在一定环境下，做收益最大化的学习。
学习目标一般有以下几个：
1.追求纳什平衡
2.最求

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

博弈论笔记