当前位置:网站首页>【博弈论】基础知识
【博弈论】基础知识
2022-06-23 06:25:00 【见见大魔王】
【博弈论】基础知识
1 策略式博弈
策略式博弈 又称 静态博弈,它是 一次 博弈。策略式博弈 G G G 形式化表示为:
G = { N , { A i } i = 1 N , { u i } i = 1 N } G=\left\{N,\left\{A_{i}\right\}_{i=1}^{N},\left\{u_{i}\right\}_{i=1}^{N}\right\} G={ N,{ Ai}i=1N,{ ui}i=1N}
其中:
- N N N:玩家集,所有玩家的有限集合;
- A i A_{i} Ai:玩家 i i i 的策略集:表示玩家 i i i 可选择的策略的集合;
- u i u_i ui:玩家 i i i 的收益函数: A 1 × A 2 × … A N → R A_{1} \times A_{2} \times \ldots A_{N} \rightarrow R A1×A2×…AN→R 表示在一组策略下的收益。
完全信息静态博弈 具有以下特点:
- 非合作博弈
- 同时行动(simultaneous move):所有玩家同时做出策略选择。在选择策略时不知道其他玩家的策略选择
- 完全信息(complete information):每个玩家的的策略和收益函数都是所有玩家的共同知识(common knowledge)
非完全信息静态博弈(也称 静态贝叶斯博弈)具有以下特点:
- 非合作博弈
- 同时行动(simultaneous move):所有玩家同时做出策略选择。在选择策略时不知道其他玩家的策略选择
- 非完全信息(incomplete information):至少有一个玩家不能准确地知道其他某个玩家的收益函数。
以 囚徒困境 为例:
完全信息静态博弈:
两名犯罪嫌疑人被抓捕,被关到不同的牢房,但警方无充足证据,两名嫌疑人被告知:
- 若双方都不坦白,则均被判一个月;
- 若双方都坦白,则均被判六个月;
- 若一方坦白而另一方不坦白,则坦白一方释放,不坦白一方被判九个月。
可以使用双变量矩阵来表示二者的收益:
非完全信息静态博弈:
两名犯罪嫌疑人被抓捕,被关到不同的牢房,但警方无充足证据,两名嫌疑人被告知:
- 若双方都不坦白,则均被判一个月;
- 若双方都坦白,则均被判六个月;
- 若一方坦白而另一方不坦白,则坦白一方释放,不坦白一方被判九个月。
除此之外,还有额外需要注意的:
- Prisoner 1 总是理性的,即自私的
- Prisoner 2 可能是理性的,也可能是利他的,取决于他的心情
- 当 Prisoner 2 是利他时,那么他更偏好不坦白,他认为坦白等于“额外入狱四个月”
- Prisoner 1 不能准确地判断 Prisoner 2 是利己的还是利他的,但他能推断 Prisoner 2 理性的概率为 0.8,利他的概率为 0.2。
2 扩展式博弈
扩展式博弈,也称 动态博弈,它与策略博弈相对应。在扩展式博弈中,玩家是轮流进行决策的,通常可用 博弈树 将其刻画。
博弈树由 结点 (node)和 边 (edge)组成,对应博弈玩家、策略和收益。
- 非叶子结点:代表 博弈玩家,表示这个时候哪个博弈玩家做出决策。每个非叶子结点有且仅有一个博弈玩家。
- 叶子结点:代表每个玩家在此时的 收益。收益只存在于叶子结点。
- 边:表示 策略

扩展式博弈 G G G 形式化表示为:
G = { N , H , P , { u i } } G=\left\{N, H, P,\left\{u_{i}\right\}\right\} G={ N,H,P,{ ui}}
其中:
- N N N 为玩家集合;
- H H H 为“策略的序列”构成的集合,可以是有限集或者无限集。 H H H 中的元素称为 历史 (history)。性质包括:
- ∅ ∈ H \emptyset \in H ∅∈H,表示博弈树的根结点。
- 如果策略序列 a 1 a 2 … a k ∈ H a^{1} a^{2} \ldots a^{k} \in H a1a2…ak∈H 并且 s < k s<k s<k,那么 a 1 a 2 … a s ∈ H a^{1} a^{2} \ldots a^{s} \in H a1a2…as∈H
- 如果无穷策略序列 ( a k ) k = 1 ∞ \left(a^{k}\right)_{k=1}^{\infty} (ak)k=1∞ 满足对于任意的 k k k, a 1 a 2 … a k ∈ H a^{1} a^{2} \ldots a^{k} \in H a1a2…ak∈H,那么 ( a k ) k = 1 ∞ ∈ H \left(a^{k}\right)_{k=1}^{\infty} \in H (ak)k=1∞∈H
- 每一条历史序列都对应博弈树的一个结点,对应历史序列末端到达的结点
- 在完全信息扩展式博弈中,历史集大小=结点个数
- 最终历史集(Terminal history set): Z Z Z = {All Terminal history},在这些结点上是 收益
- P P P 为博弈玩家函数(Player Function):
- P : H \ Z → N P: H \backslash Z \rightarrow N P:H\Z→N 给每一个非终结历史分配玩家集 N N N 中的一个元素
- P ( h ) P(h) P(h) 表示在历史 h h h 后,轮到哪个玩家做决策
- u i u_i ui 为收益函数,表示第 i i i 个玩家的收益
3 纳什均衡
继续上面 完全信息静态博弈 的囚徒困境的例子。我们先站在犯人1的角度思考:
- 如果2坦白了,我选择坦白,则收益为-6;如果我不选择坦白,则收益为-9。因此我会选择坦白;
- 如果2不坦白,我选择坦白,则收益为0;如果我不选择坦白,则收益为-9,因此我会选择坦白。
同时,犯人2也会这么想。因此二者都会坦白。
最优反应:当对手策略选定的时候,玩家会调整自己的策略,使得自己的收益在几种策略选择中是最大的。
纳什均衡:任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变)都不会提高自身的收益。
也就是每个玩家的策略都是 最佳反应 的时候,就会形成一个稳定的局面,即达到 纳什均衡。
纳什均衡的形式化定义如下:
纳什均衡是博弈结果 a ∗ = ( a 1 ∗ , a 2 ∗ , … , a N ∗ ) a^{*}=\left(a_{1}^{*}, a_{2}^{*}, \ldots, a_{N}^{*}\right) a∗=(a1∗,a2∗,…,aN∗),即对每个玩家 i i i 都有:
u i ( a i ∗ , a − i ∗ ) ≥ u i ( a i , a − i ∗ ) u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right) ui(ai∗,a−i∗)≥ui(ai,a−i∗)
因此,我们可以 通过寻找同时满足所有人的最佳反应的博弈结果,来求解纳什均衡。
Reference
https://zhuanlan.zhihu.com/p/148407108
https://zhiqianghe.blog.csdn.net/article/details/107330041
https://www.docin.com/p-2590113104.html
https://zhuanlan.zhihu.com/p/199047997
边栏推荐
- 100 GIS practical application cases (79) - key points of making multi plan integrated base map
- What you need to know about five insurances and one fund
- 【2022毕业季】从毕业到转入职场
- [STL] summary of stack and queue usage of container adapter
- 关于#sql#的问题:有没有不增加字段,在原有字段的基础上,对字段里面的null值进行填充的方法呢
- About professional attitude
- Too much if logic in JS, common optimization
- 316. remove duplicate letters
- 306. 累加数
- Nacos适配oracle11g-建表ddl语句
猜你喜欢
![Don't look for [12 super easy-to-use Google plug-ins are here] (are you sure you want to take a look?)](/img/45/3e43faf7aba6741825ccb9719b8445.png)
Don't look for [12 super easy-to-use Google plug-ins are here] (are you sure you want to take a look?)

Analyzing the creation principle in maker Education

js 判断两个数组增加和减少的元素

深度学习系列47:超分模型Real-ESRGAN

Analysis of personalized learning progress in maker Education

Regular expression graph and text ultra detailed summary without rote memorization (Part 1)

In depth learning series 47:stylegan summary

JUnit unit test reports an error org junit. runners. model. InvalidTestClassError: Invalid test class ‘xxx‘ . No runnable meth

初始化层实现

TensorFlow中的数据类型
随机推荐
900. RLE iterator
[STL] summary of pair usage
.h5文件忘记数据库名字,使用h5py打印
316. remove duplicate letters
Why can't the index of JS array use negative numbers
897. 递增顺序搜索树
用户态和内核态
899. ordered queue
[STL] summary of map usage of associated containers
OSI分层模型对工作的具体帮助
306. Addenda
【2022毕业季】从毕业到转入职场
309. 最佳买卖股票时机含冷冻期
Paddle version problem
System permission program cannot access SD card
316. 去除重复字母
Learning and using quartz scheduling framework
junit单元测试报错org.junit.runners.model.InvalidTestClassError: Invalid test class ‘xxx‘ .No runnable meth
直播回顾 | 传统应用进行容器化改造,如何既快又稳?
Mysql(十一) — MySQL面试题整理

