博弈论——不完全信息练习题（十七）

相关文章推荐

1 两寡头古诺产量竟争模型。
厂商的利润函数为 $\pi_i=q_i\left(t_i-q_j-q_i\right), i=1,2$ 。若 $t_1=1$ 是两个厂商的共同知识, 而 $t_2$ 则是厂商 2 的私人信息, 厂商 1 只知道 $t_2=3 / 4$ 或 $t_2=4 / 5$ , 且 $t_2$ 取这两个值的概率相等。若两个厂商同时选择产量, 请找出该博弈的纯策略贝叶斯均衡。
解：假设: 厂商 2 在 $t_2=3 / 4$ 时, 产量为 $q_2^{\prime}$ , 利润为 $\pi_2^{\prime}$ ；厂商 2 在 $t_2=4 / 5$ 时, 产量为 $q_2^{\prime \prime}$ , 利润为 $\pi_2{ }^{\prime \prime}$
对于厂商 2 来说, 分别具有 $50\%$ 的概率得到以下的利润

\[\begin{aligned} & \pi_2^{\prime}=q_2^{\prime}\left(\frac{3}{4}-q_1-q_2^{\prime}\right) \\ & \pi_2^{\prime \prime}=q_2^{\prime \prime}\left(\frac{4}{5}-q_1-q_2^{\prime \prime}\right) \end{aligned} \]

对于厂商 1 来说, 利润为

\[E \pi_1=\frac{1}{2} q_1\left(1-q_1-q_2^{\prime}\right)+\frac{1}{2} q_1\left(1-q_1-q_2^{\prime \prime}\right) \]

求解上面三个式子的一阶导数, 并令其为零, 得到

\[\begin{aligned} & \frac{3}{4}-q_1-2 q_2^{\prime}=0 \\ & \frac{4}{5}-q_1-2 q_2^{\prime \prime}=0 \\ & 1-2 q_1-\frac{1}{2} q_2^{\prime}-\frac{1}{2} q_2^{\prime \prime}=0 \end{aligned} \]

得到: $q_1=\frac{98}{240}, q_2^{\prime}=\frac{41}{240}, q_2^{\prime \prime}=\frac{47}{240}$
该博弈的纯战略贝叶斯均衡为, 厂商 1 的产量为 $q_1=\frac{98}{240}$ , 厂商 2 在 $t_2=3 / 4$ 时, 产量为 $q_2^{\prime}=\frac{41}{240}$ ; 在 $t_2=4 / 5$ 时, 产量为 $q_2^{\prime \prime}=\frac{47}{240}$ 。

2 两个厂商生产相同产品在市场上进行竞争性销售。
第 1 个厂商的成本函数为 $c_1=q_1$ , 其中 $q_1$ 为厂商 1 的产量。第 2 个厂商的成本函数为 $c_2=c q_2$ , 其中 $q_2$ 为厂商 2 的产量, $c$ 为其常数边际成本。两个厂商的固定成本都为零。厂商 2 的边际成本 $c$ 是厂商 2 的 “私人信息”, 厂商 1 认为 $c$ 在 $\left[\frac{1}{2}, 3 / 2\right]$ 上呈均匀分布。设市场需求函数为 $P=4-q_1-q_2$ , 其中 $P$ 为价格, 两个厂商都以其产量为纯战略, 问纯战略贝叶斯均衡为何?
解：考虑到 $c$ 在 $\left[\frac{1}{2}, 3 / 2\right]$ 上呈均匀分布, $f(c)=1, E(c)=\int_{\frac{1}{2}}^{\frac{3}{2}} f(c) \cdot c \cdot d c=1$
对于厂商 $1, \pi_1=p q_1-c_1=\left(3-q_1-q_2\right) q_1$
对于厂商 $2, \pi_2=p q_2-c_2=\left(4-q_1-q_2-E(c)\right) q_2$

\[\pi_2=\left(3-q_1-q_2\right) q_2 \]

对于厂商1,2的利润函数求一阶导数，并令其为零，得到 $q_1=q_2=1$ 。该博弈的纯战略贝叶斯均衡为，厂商1,2的产量均为1。

3 完全信息与不完全信息猜硬币博弈。
完全信息猜硬币博弈

贝叶斯纳什均衡分析

假设当且仅当 $ t_1 \geq c_1 $ 时，参与人 1 选择 H；当且仅当 $ t_2 \geq c_2 $ 时，参与人 2 选择 T。因此在事前，参与人 1 选择正面的概率为 $\frac{x - c_1}{x}$ ，参与人 2 选择正面的概率为 $ c_2 $。

对于参与人 1，若选择正面的收益大于或等于选择背面，即：

\[(1 + t_1) \frac{x - c_2}{x} - \frac{c_2}{x} \geq (-1) \frac{x - c_2}{x} + \frac{c_2}{x} \]

我们得到 $ t_1 \geq \frac{2 c_2}{x - c_2} - 2 = c_1 $。

同样对于参与人 2，若选择背面的收益大于或等于选择正面，即：

\[\frac{x - c_1}{x} - \frac{c_1}{x} \geq (-1) \frac{x - c_1}{x} + \frac{c_1}{x} \]

我们得到 $ t_2 \geq 2 c_1 - 2 = c_2 $。

联立两式可得 $ c_1 = c_2 $，再代入上式可得：

\[x - c_1 - 4 + x + \sqrt{16 + x^2} = 2 c_1 - 2 x + 2 c_1 = c_1 x - c_1^2 \]

解得 $ c_1 $。

故参与人 1 选择正面的概率为：

\[\frac{x - c_1}{x} = \frac{1}{2} + \frac{4 - \sqrt{16 + x^2}}{2 x} \]

令 $ x \rightarrow 0 $，我们得到：

\[\frac{c_2}{x} \rightarrow \frac{1}{2} \]

4 考虑如下的不完全信息博弈：参与人 1(行参与人)清楚这个博弈的支付矩阵是 G1 还是 G2(如下表所示)，但是参与人 2(列参与人)不知道博弈的支付矩阵是哪个，假设 G1 和 G2 出现的概率各为 $\frac{1}{2}$ ，并且这个概率为两个参与人的“共同知识”。

步骤2：计算参与人2的期望收益

如果参与人2选择L，他的期望收益为：

\[\frac{1}{2} \times 1 + \frac{1}{2} \times 0 = \frac{1}{2}

如果参与人2选择R，他的期望收益为：

\[\frac{1}{2} \times 0 + \frac{1}{2} \times 2 = 1

步骤3：确定参与人2的最优策略

参与人2将选择R，因为1 > $\frac{1}{2}$ 。

步骤4：确定参与人1的最优策略

如果支付矩阵是G1，参与人1将选择U，因为1 > 0。

如果支付矩阵是G2，参与人1将选择D，因为2 > 0。

贝叶斯纳什均衡

如果支付矩阵是G1，参与人1选择U，参与人2选择R。

如果支付矩阵是G2，参与人1选择D，参与人2选择R。

不完全信息博弈分析

参与人：$ i \in {1, 2} $

类型：$ t \in {G1: \frac{1}{2}, G2: \frac{1}{2}} $

(纯)策略

参与人1的策略：$ \sigma_1 \in {UU, UD, DU, DD} $

参与人2的策略：$ \sigma_2 \in {L, R} $

支付：$ \tilde{u}_i(\sigma_1, \sigma_2), i \in {1, 2} $

在给定先验概率为 $ \frac{1}{2} $ 时，两个参与人的支付矩阵可以表示为：

$ {(UD: \lambda, DD: 1-\lambda), R \mid \lambda \in [0, 1]} $

$ {(UU: \lambda, UD: 1-\lambda), L \mid \lambda \in [\frac{1}{2}, 1]} $

5 用逆向归纳法求解不完全信息动态博弈的完美贝叶斯纳什均衡

解：设在 1 的第二个信息集上, 1 认为 2 选 $a$ 的概率为 $P$ ，则 1 选 $L^{\prime}$ 的支付 $$=5 P+2(1-P)=2+3 P$$；1 选 $R^{\prime}$ 的支付 $$=6P+3(1-P)=3+3 P>2+3P$$，故1必选 $R^{\prime}$ 。
即得 $\Rightarrow$ 给定 1 在第二个决策结上选 $R^{\prime}, 2$ 在左边决策结上会选 $a$ , 故完美贝叶斯纳什均衡为 $\left\{L, R^{\prime},(a, d)\right\}$ 。

6 双寡头古诺博弈
(Gibbons, 1992)考虑如下双寡头古诺模型。市场的反需求函数为 $P(Q) = A一Q$ ，其中 $Q=q_1+q_2$ 为市场总产量，且需求是不确定的，分别以 $\theta$ 的概率为高( $A=A_h$ )，以 $1-\theta$ 的概率为低( $A=A_l$ )。两厂商的成本函数为 $C_i(q_i)=cq_i，i=\{1,2\}$ 。并且信息也是不对称的:厂商1知道需求是高还是低，但是厂商2不知道。假设所有这些都是共同知识。两个厂商同时进行产量决策。(1)找出这两个厂商的策略集;(2)假设 $A_h,A_l,\theta$ 和 $c$ 的取值范围使得所有的均衡产出都为正数，求出此博弈的贝叶斯纳什均衡。
解：（1）厂商1的策略空间为: $\{(q_{1h},q_{1l})|q_{1h},q_{1l} \in R_+\}$ ，厂商2的策略空间为 $q_2 \in R_+$ 。
(2)因为厂商1知道需求是高还是低，首先分别求出厂商1在面对不同市场需求时的最优反应：
在 $A=A_h$ 时， $max(A_h-q_{1h}-q_2-c)q_{1h}$ ，由一阶条件推出 $q_{1h}=\frac{A_h-q_2-c}{2}$ ；
在 $A=A_l$ 时， $max(A_l-q_{1l}-q_2-c)q_{1l}$ ，由一阶条件推出 $q_{1l}=\frac{A_l-q_2-c}{2}$ 。
因为厂商2不知道需求是高还是低，它要最大化其期望利润，得

\[max\theta(A_h-q_{1h}-q_2-c)q_2+(1-\theta)(A_l-q_{1l}-q_2-c)q_2 \]

由一阶条件推出

\[q_2=\frac{\theta\left(A_h-q_{1h}\right)+(1-\theta)\left(A_l-q_{1l}\right)-c}{2} \]

联立两个厂商的最优反应解得这个博弈的贝叶斯纳什均衡为 $((q_{1h}^*,q_{1l}^*,q_{2}^*)$ ，其中

\[\begin{aligned} \dot{q}_{1h}^*=\frac{(3-\theta) A_h-(1-\theta) A_l-2c}{6} \\q_{1l}^*=\frac{(2+\theta) A_l-\theta A_h-2c}{6}, \\ q_2^*=\frac{\theta A_h+(1-\theta) A_l-c}{3} . \end{aligned} \]

7 (Gibbons, 1992) 对下面的扩展式博弈，写出其策略式博弈，并且找出所有的纯策略纳什均衡和子博弈贝叶斯纳什均衡，以及完美贝叶斯均衡。

解：(1) 此博弈的策略形式为：

纯策略纳什均衡为： $(L,L')$ , $(R,R')$ 。

子博弈完美纳什均衡为： $\{(L,L'), p=1\}$ ， $\{(R,R'), p \leq \frac{1}{2}\}$ 。

(2) 此博弈的策略形式为：

8 性别博弈
我们用之前讨论的“性别之争”来说明上述结论。我们已经知道该博弈有两个纯策略纳什均衡(歌剧，歌剧)和(足球，足球)，以及一个混合策略纳什均衡：妻子以3/4和1/4的概率分布在歌剧和足球中随机选择，丈夫以1/3和2/3的概率分布在歌剧和足球之间随机选择。
我们首先构造“性别之争”博弈不完全信息条件下的“近似博弈”。假设夫妻俩虽然已经共同生活了相当长时间,但他们对对方关于歌剧表演、足球赛的偏好并没有彻底了解如果两人都去看歌剧，妻子的得益 $2+t_w$ 只有妻子自己完全清楚，丈夫对 $t_w$ 的实际数值并不知道，只知道均匀分布于 $[0,x]$ 区间，丈夫陪妻子去看歌剧表演时的得益为1也是两人都完全清楚的，如果两人同去看足球赛赛，那么丈夫的得益为 $3+t_h$ ，其中 $t_h$ 也只有丈夫自己完全清楚，妻子对 $t_h$ 的实际数值并不知道，只知道 $t_h$ 均匀分布于 $[0,x]$ 区间，妻子陪丈夫去看足球赛时的得益为1也是两人都清楚的。如果两人无法协调一致行动时，双方的得益也是两人都清楚的，双方的得益都仍然是0。

现在我们来构造该不完全信息条件下的性别之争博弈的一个纯策略贝叶斯纳什均衡。设丈夫和妻子采用如下的策略：当妻子的类型 $t_w$ 超过某个临界值 $w$ ，即 $t_w>w$ 时，选择观看歌剧表演，否则选择观看足球赛；当丈夫的类型 $t_h$ 超过某个临界值 $h$ 时，选择观看足球赛，否则选择观看歌剧表演。由于 $t_w$ 和 $t_h$ 都是 $[0,x]$ 上的均匀分布，所以在上述双方的策略下，妻子选择观看歌剧表演的概率为 $\frac{w}{x}$ ;丈夫选择观看歌剧表演的率为 $\frac{h}{x}$ ，选择观看足球赛的概率为 $1-\frac{h}{x}$ 。下面我们来求解 $w$ 和 $h$ ，使双方的上述策略组合构成一个贝叶斯纳什均衡。假定丈夫已经采用了上述临界值策略，则妻子选择观看歌剧表演和足球赛的期望得分别为：

\[\frac{h}{x}\left(2+t_\omega\right) \frac{x-h}{x} \cdot 0=\frac{h}{x}\left(2+t_w\right)

\[\frac{x-\omega}{x} \cdot 1+\frac{\omega}{x} \cdot 0=\frac{x-\omega}{x} \]

同样，只有当选择观看歌剧表演的期望得益大或等于选择足球赛的期望得益时，妻子才会选择观看歌剧表演，由此可得 $t_h \geq x / \omega-4 ， h=x / \omega-4$ 。

解联立方程组

\[\left\{\begin{array}{l} \omega=\frac{x}{h}-3 \\ h=\frac{x}{\omega}-4 \end{array}\right. \]

可得

\[\begin{gathered} \omega=\frac{-3 \pm \sqrt{9+3 x}}{2}=\frac{-3+\sqrt{9+3 x}}{2} \\ h=\frac{-6 \pm 2 \sqrt{9+3 x}}{3}=\frac{-6+2 \sqrt{9+3 x}}{3} \end{gathered} \]

当参数 $\omega$ 和 $h$ 满足上述关系时，上述策略构成贝叶斯纳什均衡。为的概此时，妻子选择歌剧表演的概率为:

\[\frac{x-\omega}{x}=1-\frac{\omega}{x}=1-\frac{-3+\sqrt{9+3 x}}{2 x} \]

丈夫选择足球赛的概率为:

\[\frac{x-h}{x}=1-\frac{h}{x}=1-\frac{-6+2 \sqrt{9+3 x}}{3 x} \]

当 $x \rightarrow 0$ ，即不完全信息接近消失或微不足道时，上述两概率分别倾向于 $3 / 4$ 和 $2 / 3$ ，上纯策略贝叶斯均衡就收敛为一个完全信息博率的混合策略纳什均衡，这正是我们之前给出的完全信息“性别之争“博率的混合策略均衡的随机选择概率分布。也正是在 $x \rightarrow 0$ 这个意义上，海萨尼认为完全信息博率的混合策略均衡是不完全信息博率贝叶斯均衡的极限。

9 抓钱博弈
桌子上放1元钱，桌子的两边坐着两个参与人，如果两人同时去抓钱，每人罚款1元；如果只有一人去抓，抓的人得到那元钱；如果没有人去抓，谁也得不到什么。因此，每个博弈方的策略是决定抓还是不抓。得益矩阵如下图所示

这个博弈有两个纯策略纳什均衡(一个博弈方抓另一个博弈方不抓)和一个对称混合策略均衡：每个博弈方以 $\frac{1}{2}$ 的概率选择抓。后者是一个均衡，因为，如果博弈方 $i$ 不抓，他的利润是0；如果博弈方 $i$ 去“抓”，他的期望利润是 $\frac{1}{2}(1)+\frac{1}{2}(-1)=0$ 。现在考虑同样的博弈但具有如下不完全信息；每个参与人有相同的得益结构，但如果他赢了的话知道，但另一个博弈方不知道。假定，博弈方自己利润是 $1+\theta_i$ （而不是1）。这里 $\theta_i$ 是博弈方的类型，博弈方 $i$ 自己知道，但另一个博弈方不知道。假定 $\theta_i$ 在区间 $[-\varepsilon, \varepsilon]$ 上均匀分布。
我们考虑下列策略选择：(1)博弈方1：如果$\theta_1 \ge \theta_1^* $ ，选择“抓”；如果$\theta_1 \lt \theta_1^* $ ，选择“不抓”；(2)博弈方2：如果 $\theta_2 \ge \theta_2^*$ ，选择“抓”；如果 $\theta_2 \ge \theta_2^*$ ，选择“不抓”。给定博弈方 $j$ 的策略，博弈方 $i$ 选择抓（用1表示）的期望利润是

\[u_i(1)=\left(1-\frac{\theta_j^*+\varepsilon}{2 \varepsilon}\right)(-1)+\left(\frac{\theta_j^*+\varepsilon}{2 \varepsilon}\right)\left(1+\theta_i\right) \]

这里， $\left(1-\frac{\theta_j^*+\varepsilon}{2 \varepsilon}\right)$ 是博弈方 $j$ 抓的概率， $\left(\frac{\theta_j^*+\varepsilon}{2 \varepsilon}\right)$ 是博弈方 $j$ 不抓的概率。博弈方 $i$ 选择不抓 (用 0 表示) 的利润是 $u_i(0)=0$ 。因此， $\theta_j^*$ 满足下列条件

\[\left(1-\frac{\theta_j^*+\varepsilon}{2 \varepsilon}\right)(-1)+\left(\frac{\theta_j^*+\varepsilon}{2 \varepsilon}\right)\left(1+\theta_j^*\right)=0 \]

或简化为

\[2 \theta_j^*+\theta_j^* \theta_i^*+\varepsilon \theta_i^*=0 \]

因为博弈是对称的，在均衡情况下， $\theta_i^* = \theta_j^*$ ，上述条件意味着 $\theta_1^* = \theta_2^*=0$ 。也就是说每一个博弈方 $i$ ，均衡情况下的最优选择是：如果 $\theta_i \ge 0$ ，选择“抓”；如果 $\theta_i \lt 0$ ，选择“不抓”。因为 $\theta_i \geq 0$ 和 $\theta_i<0$ 的概率各为 $1 / 2$ , 每一个博率方在选择自己的行动时都认为对方选择抓与不抓的概率各为 $1 / 2$ ，似乎他面对的是一个选择混合策略的对手，尽管每个博弈实际上选择的都是纯策略。当 $\varepsilon \to 0$ 时，上述贝叶斯均衡就收敛为一个完全信息博弈的混合策略纳什均衡。因此，海萨尼说完全信息博弈的混策略均衡是不完全信息博弈贝叶斯均衡的极限。

10 试给出下述信号博弈的纯战略均衡中的混同均衡和分离均衡。

解 : 有四种可能: 混同均衡 $t_1 \rightarrow m_1, t_2 \rightarrow m_1$ ； $\quad t_{\mathrm{l}} \rightarrow m_2, t_2 \rightarrow m_2$
分离均衡 $t_1 \rightarrow m_1, t_2 \rightarrow m_2$ ； $\quad t_1 \rightarrow m_2, t_2 \rightarrow m_1$
设 $u(m_i)$ 为接受者看见 $m_i$ 时认为发送者是 $t_1$ 的概率。看见 $t_1 \rightarrow m_1, t_2 \rightarrow m_1$ ，则 $u\left(m_1\right)=0.5$ , 非均衡路径上 $u\left(m_2\right)=[0,1]$
当接收者看见 $m_1$ , 选 $a_1$ 的支付为

\[0.5 \times 2+0.5 \times 1=1.5 \]

选 $a_2$ 的支付为 $$0.5 \times 8+0.5 \times 7=7.5>1.5$$
故选 $a_2$ 。
当接受者看见 $m_2$ , 选 $a_1$ 的支付为

\[u\left(m_2\right) \times 1+\left(1-u\left(m_2\right)\right) \times 5=5-4 u\left(m_2\right) \]

选 $a_2$ 的支付为

\[u\left(m_2\right) \times 7+\left(1-u\left(m_2\right)\right) \times 3=3+4 u\left(m_2\right) \]

当 $t_1$ 选 $m_1$ , 接收者会选 $a_2$ , $t_1$ 得支付 10 , 要求 $t_1$ 不选 $m_2$ , 对 $u\left(m_2\right)$ 无要求, 因 $t_1$ 总会选 $m_1$ 。
当 $t_2$ 选 $m_1$ , 接收者会选 $a_2, t_2$ 得支付 3 , 要求 $t_2$ 不选 $m_2$ 是不可能的, 因 $t_2$ 选 $m_2$ 是占优于选 $m_1$ 的, 故此混同均衡 $t_1 \rightarrow m_1, t_2 \rightarrow m_1$ 不存在。
再看混同均衡 $t_1 \rightarrow m_2, t_2 \rightarrow m_2$ .

\[u\left(m_2\right)=0.5 \]

当接收者看见 $m_2$ , 选 $a_1$ 的支付为

\[0.5 \times 1+0.5 \times 5=3 \]

选 $a_2$ 的支付为

\[0.5 \times 7+0.5 \times 3=5>3 \]

故接收者必选 $a_2$ 。
当接收者看见 $m_1$ 时, 选 $a_1$ 的支付为

\[u\left(m_1\right) \cdot 2+\left(1-u\left(m_1\right) \cdot 1=1+u\left(m_1\right)\right. \]

选 $a_2$ 的支付为

\[u\left(m_1\right) \cdot 8+\left(1-u\left(m_1\right) \cdot 7=7+u\left(m_1\right)>1+u\left(m_1\right)\right. \]

故必选 $a_2$ 。
这样, 无论发送者发出 $m_1$ 或 $m_2$ 信号, 接收者总选 $a_2$ $\Rightarrow$ 给定接收者总是选 $a_2$ 。
$t_1$ 会选 $m_1, t_2$ 会选 $m_2$ $\Rightarrow$ 故 $t_1 \rightarrow m_2, t_2 \rightarrow m_2$ 不是混同均衡。
看分离均衡 $t_1 \rightarrow m_1, t_2 \rightarrow m_2$

\[u\left(m_1\right)=1, u\left(m_2\right)=0 \]

接收者看见 $m_1$ 时, 必选 $a_2$ ；接收者看见 $m_2$ 时, 必选 $a_1$
此时, $t_1$ 选 $m_1, t_2$ 选 $m_2$ $\Rightarrow$ 故 $t_1 \rightarrow m_1, t_2 \rightarrow m_2$ 是一个分离均衡。
最后看分离均衡 $t_1 \rightarrow m_2, t_2 \rightarrow m_1$

\[u\left(m_1\right)=0, u\left(m_2\right)=1 \]

接收者看见 $m_1$ 时, 必选 $a_2$ ；接收者看见 $m_2$ 时, 必选 $a_2$ $\Rightarrow$ 给定接收者总选 $a_2$

\[\begin{aligned} & t_1 \rightarrow m_1, t_2 \rightarrow m_2 \\ & \Rightarrow \text { 故 } t_1 \rightarrow m_2, t_2 \rightarrow m_1 \text { 不是分离均衡。 } \end{aligned} \]

故只有一个纯战略子博弈完全分离均衡

\[\begin{aligned} & t_1 \rightarrow m_1，\quad & t_2 \rightarrow m_2 \end{aligned} \]

11 厂商进入的信号博弈
现市场上有一新厂商打算进入市场，而自然决定这个进入者 (后称 $p_1$ ) 强弱 $\left(\theta_s, \theta_w\right)$ ，同时在位厂商 (后称 $\left.p_2\right)$ 不知进入厂商的类型是强 $\left(\theta_s\right)$ 还是弱 $\left(\theta_w\right)$ ，但是可以观察到进入厂商释放的信号是强 $(S)$ 还是弱 $(W)$ 。在位厂商可以根据信号决定打 ( $F$ ,fight)，还是适应 ( $A$ ,accommodate)，见下图：

思考: 进入厂商 $p_1$ 有哪些策略: $SS、WW、SW、WS$ 。以 $SS$ 为例，第一个 $S$ 的意思是，当 $p_1$ 为 $\theta_s$ 时，发出 $S$ 信号；第二个 $S$ 的意思是，当 $p_1$ 为 $\theta_w$ 时，发出 $S$ 信号。
在位厂商 $p_2$ 有哪些策略: $FF、AA、FA、AF$ 。以 $F F$ 为例，第一个 $F$ 的意思是，当 $p_2$ 接受到 $S$ 信号时，作出 $F$ 动作；第二个 $F$ 的意思是，当 $p_2$ 接受到 $W$ 信号时，作出 $F$ 动作。

解:(1) 考虑 $S_1=S W$ ， $p_1$ 为 $\theta_s$ 时释放 $S$ 信号， $p_1$ 为 $\theta_w$ 时释放 $W$ 信号。这是“说实话”的情况，那么在贝叶斯信念中，

\[\left\{\begin{aligned} \mu\left(\theta_s \mid S\right) & =1, \\ \mu\left(\theta_w \mid W\right) & =1 . \end{aligned}\right. \]

那么从博弈树可知， $p_2$ 的策略为: $S_2=A F$

$p_1$ 类型为 $\theta_s$ ，释放 $S$ 信号， $p_2$ 选择 $A$ 的收益高;
$p_1$ 类型为 $\theta_w$ ，释放 $W$ 信号， $p_2$ 选择 $F$ 的收益高。

分析：由序贯理性可知，若 $p_1$ 知道 $S_2=A F$ ，则 $p_1$ 在自己类型为 $\theta_w$ 时，释放 $S$ 信号。而 $S_2=A F$ ，则 $p_2$ 选择 $A$ 策略，此时收益 $B_{p_1}^S=2$ 反而高于 $p_2$ 选 $F$ 的收益 $B_{p_1}^W=1$ ，这样就不是一个完美贝叶斯纳什均衡 (Perfect Bayesian Nash Equilibrium, PBNE)。
**(2) **考虑 $S_1=W S$ ， $p_1$ 为 $\theta_s$ 时释放 $W$ 信号， $p_1$ 为 $\theta_w$ 时释放 $S$ 信号。这是“说谎话”的情况，那么在贝叶斯信念中，

\[\left\{\begin{array}{r} \mu\left(\theta_s \mid S\right)=0, \\ \mu\left(\theta_s \mid W\right)=1 . \end{array}\right. \]

那么从博弈树可知， $p_2$ 的策略为: $S_2=F A$

$p_1$ 类型为 $\theta_s$ ，释放 $W$ 信号， $p_2$ 选择 $A$ 的收益高;
$p_1$ 类型为 $\theta_w$ ，释放 $S$ 信号， $p_2$ 选择 $F$ 的收益高。

分析：由序贯理性可知，若 $p_1$ 知道 $S_2=F A$ ，则 $p_1$ 在自己类型为 $\theta_w$ 时，释放 $W$ 信号。而 $S_2=F A$ ，则 $p_2$ 选择 $A$ 策略，此时收益 $B_{p_1}^W=3$ 反而高于 $p_2$ 选 $F$ 的收益 $B_{p_1}^S=0$ 。那么这样就不是 $\mathrm{PBNE}$ 。
**(3) **考虑 $S_1=S S$ ， $p_1$ 为 $\theta_s$ 时释放 $S$ 信号， $p_1$ 为 $\theta_w$ 时释放 $S$ 信号。在贝叶斯信念中，

\[\left\{\begin{aligned} \mu\left(\theta_s \mid S\right) & =P, \\ \mu\left(\theta_s \mid W\right) & =\text { 任意值. } \end{aligned}\right. \]

只看左边的树。有: $S_2=A A$
$p_2$ 中，选 $A$ 的收益为 $B_{p_2}^A=1$ ，选 $F$ 的收益为 $B_{p_2}^F=0 \times P+2 \times(1-P)=2(1-P)$ ，
如果要让 $B_{p_2}^F<B_{p_2}^A$ ，则 $2(1-P)<1$ ，得到

\[P>1 / 2 . \]

那么结论是，若 $P>1 / 2$ ，则 $p_2$ 的策略为 $S_2=A A_{\text {。}}$
i）然而，也要考虑 $p_1$ 释放 $W$ 的情况（虽然不会出现，也要讨论)
可以发现， $p_2$ 选 $A$ 的收益为 $B_{p_2}^A=1$ ，选 $F$ 的收益为 $B_{p_2}^F=0 \times \mu\left(\theta_s \mid w\right)+2 \times\left(1-\mu\left(\theta_s \mid w\right)\right)=$ $2\left(1-\mu\left(\theta_s \mid w\right)\right)$ 。
因为 $\mu\left(\theta_s \mid w\right)>1 / 2$ ，则 $p_2$ 选择 $F$ 的收益为 $B_{p_2}^F=2\left(1-\mu\left(\theta_s \mid w\right)\right)<1$ ，综上, $S_2=A A_{\text {。}}$
但是! $p_1$ 为 $\theta_w$ 时可以认为，反正 $p_1$ 出什么信号， $p_2$ 都会选择 $A$ 行为。从博弈树上可以看到， $p_1$ 释放 $W$ 时，收益为 $B_{p_1}^W=3，p_1$ 释放 $S$ 时，收益为 $B_{p_1}^S=2$ 。
那么， $S_1$ 有可能偏离到 $S_1=S W$ 去，所以 $(SS, AA, P)$ 不是PBNE。
ii) 同样考虑 $p_1$ 释放 $W$ 的情况。有: $S_2=A F$
此时，选 $F$ 的收益为 $B_{p_2}^F=0 \times P+2 \times\left(1-\mu\left(\theta_s \mid w\right)\right)=2\left(1-\mu\left(\theta_s \mid w\right)\right)$ ，
根据 $2\left(1-\mu\left(\theta_s \mid w\right)\right)>1$ ，得到 $\mu\left(\theta_s \mid w\right)<1 / 2$ 时， $B_{p_2}^F>1$ 。
那么，如果 $p_1$ 为 $\theta_s$ 释放 $W$ 信号，有 $B_{p_1}^S=3 \rightarrow B_{p_1}^W=0$ ，是一个下降趋势；
如果 $p_1$ 为 $\theta_w$ 释放 $W$ 信号，有 $B_{p_1}^S=2 \rightarrow B_{p_1}^W=1$ ，也是一个下降趋势。
所以， $p_1$ 不能为 $\theta_s$ 时释放 $W$ 信号，也不能为 $\theta_w$ 时释放 $W$ 信号。
综上， $(S S, A F, \mu)$ 为 $\mathrm{PBNE}$ ，但需满足 $\mu\left(\theta_s \mid w\right) \leq 1/2, \mu\left(\theta_s \mid s\right)=P$ 。
(4) 考虑 $S_1=W W$ ， $p_1$ 为 $\theta_s$ 时释放 $W$ 信号， $p_1$ 为 $\theta_w$ 时释放 $W$ 信号。在贝叶斯信念中，

\[\left\{\begin{aligned} \mu\left(\theta_s \mid w\right) & =P, \\ \mu\left(\theta_s \mid s\right) & =\text { 任意值. } \end{aligned}\right. \]

只看右边的树。有: $S_2=A A$
$p_2$ 中，选 $A$ 的收益为 $B_{p_2}^A=1$ ，选 $F$ 的收益为 $B_{p_2}^F=0 \times P+2 \times(1-P)=2(1-P)$ ，如果要让 $B_{p 2}^F<B_{p 2}^F$ ，则 $2(1-P)<1$ ，得到

\[P>1 / 2 \text {. } \]

那么结论是，若 $P>1 / 2$ ，则 $p_2$ 的策略为 $S_2=A A_{\text {。}}$
**i) **然而，也要考虑 $p_1$ 释放 $S$ 的情况 (虽然不会出现，也要讨论)
可以发现， $p_2$ 选 $A$ 的收益为 $B_{p_2}^A=1$ ，选 $F$ 的收益为 $B_{p_2}^F=0 \times \mu\left(\theta_s \mid s\right)+2 \times\left(1-\mu\left(\theta_s \mid s\right)\right)=$ $2\left(1-\mu\left(\theta_s \mid s\right)\right)$ 。
因为 $\mu\left(\theta_s \mid s\right)>1 / 2$ ，则 $p_2$ 选择 $F$ 的收益为 $B_{p_2}^F=2\left(1-\mu\left(\theta_s \mid s\right)\right)<1$ ，综上, $S_2=A A_{\text {。}}$
但是! $p_1$ 为 $\theta_s$ 时可以认为，反正 $p_1$ 出什么信号， $p_2$ 都会选择 $A$ 行为。从博弈树上可以看到， $p_1$ 释放 $W$ 时，收益为 $B_{p_1}^W=2 ， p_1$ 释放 $S$ 时，收益为 $B_{p_1}^S=3$ 。
那么， $S_1$ 有可能偏离到 $S_1=S W$ 去，所以 $(S S, A A, P)$ 不是PBNE。
ii) 同样考虑 $p_1$ 释放 $S$ 的情况。有: $S_2=F A$
此时，选 $F$ 的收益为 $B_{p_2}^F=0 \times P+2 \times\left(1-\mu\left(\theta_s \mid w\right)\right)=2\left(1-\mu\left(\theta_s \mid w\right)\right)$ ，
根据 $2\left(1-\mu\left(\theta_s \mid w\right)\right)>1$ ，得到 $\mu\left(\theta_s \mid w\right)<1 / 2$ 时， $B_{p_2}^F>1$ 。
那么，如果 $p_1$ 为 $\theta_s$ 释放 $S$ 信号，有 $B_{p_1}^W=2 \rightarrow B_{p_1}^S=1$ ，是一个下降趋势；
如果 $p_1$ 为 $\theta_w$ 释放 $S$ 信号，有 $B_{p_1}^W=3 \rightarrow B_{p_1}^S=0$ ，也是一个下降趋势。
所以， $p_1$ 不能为 $\theta_s$ 时释放 $S$ 信号，也不能为 $\theta_w$ 时释放 $S$ 信号。
综上， $(W W, F A, \mu)$ 为 $\mathrm{PBNE}$ ，但需满足 $\mu\left(\theta_s \mid s\right) \leq 1/2, \mu\left(\theta_s \mid w\right)=P$ 。

12 信号博弈
(Gibbons, 1992)(1) 求出下面信号博弈的一个混同完美贝叶斯均衡，其中两类发送者都选信号 R 。

(1) 图

(2) 下面的三类型信号博弈由自然的行动开始，没有在博弈树上表示出来，以同样的概率赋予发送者三种类型中的一种。求出一个混同完美贝叶斯均衡，其中三类发送者都选择信号 L 。
(3)求出(1)和(2)中其它的所有纯策略完美贝叶斯均衡。
解：我们令发送者为参与人1,接收者为参与人2。
(1) $\left\{\sigma_1\left(t_1\right)=R, \sigma_1\left(t_2\right)=R, \sigma_2(L)=u, \sigma_2(R)=d, \mu\left(t_1 \mid L\right) \geq \frac{1}{3}, \mu\left(t_1 \mid R\right)=\frac{1}{2}\right\}$ .
(2) $\left\{\sigma_1\left(t_1\right)=\sigma_1\left(t_2\right)=\sigma_1\left(t_3\right)=L, \sigma_2(L)=\sigma_2(R)=u, \mu\left(t_i \mid L\right)=\frac{1}{3}, \mu\left(t_3 \mid R\right) \leq \frac{1}{2}\right\}$
(3)第(1)个信号博弈只有一个混同完美贝叶斯均衡，不存在其他纯策略完美贝叶斯均衡。第(2)个信号博弈还有一个（半）分离完美贝叶斯均衡，其中

\[\begin{aligned} & \sigma_1\left(t_1\right)=L, \sigma_1\left(t_2\right)=L, \sigma_1\left(t_3\right)=R, \sigma_2(L)=u, \sigma_2(R)=d, \\ & \mu\left(t_1 \mid L\right)=\mu\left(t_2 \mid L\right)=\frac{1}{2}, \mu\left(t_3 \mid R\right)=1 \end{aligned} \]

13 考虑如下不完全信息动态博弈：自然首先选择博弈 G1 或者 G2，且选择 G1 的概率为 0.6。行参与人1，在观察到自然选择了哪个博弈之后，选择行动 A 或者 B。列参与人没有观察到自然的选择，但是他在观察到行参与人的行动之后，选择行动 A 或者 B。

(1)请证明这个博弈不存在分离均衡。（提示：这里行参与人的私人信息就是他的类型。）
(2)求出这个博弈的一个混同均衡。
(3)如果行参与人没有观察到自然的选择，他是否能得到更高的收益？

解： (1)共有两种可能的分离均衡
第一种是行参与人在 G1 时选择 A 在 G2 时选择 B 。这时列参与人将会根据行参与人的行动推断出博弈是 G1 还是 G2，故列参与人的最优反应是选择 A 不论行参与人选择了哪个行动，但是在给定列参与人的选择 A 之后，行参与人将在 G1 时从 A 偏离到 B，因此这种情况不是分离均衡。
第二种是行参与人在 G1 时选择 B 在 G2 时选择 A。同样的逻辑，这时列参与人的最优反应是选择 B 不论行参与人选择了哪个行动，但行参与人将会有动力在 G2 时从 B 偏离到 A，因此这种情况也不是分离均衡。
(2)共有两种可能的混同均衡
一种情况是行参与人在两个博弈都选择 B，此时列参与人的最优反应是 B，但行参与人将有动力在 G1 时偏离到 A，因此这种情况不是分离均衡。另一种情况是行参与人在两个博弈都选择 A，此时列参与人的最优反应是 A。行参与人在 G1 时的收益为 1，在 G2 时的收益为 2。为使行参与人没有激励偏离到 B，列参与人需要在观察到 B 时选择混合策略 $(\frac{1}{2}, \frac{1}{2})$ ，故列参与人的信念为：

\[\mu(G1 | B) = \mu(G2 | B) = 0.5 \]

(3)博弈的期望支付矩阵为：

当行参与人没有观察到自然的选择时，这个博弈的子博弈完美纳什均衡为：行参与人选择 B，列参与人观察到 A 时选择 A，观察到 B 时选择 B。故行参与人的均衡收益为 1.6，比第(2)问均衡中的收益高。直觉上讲，当行参与人观察到自然的选择时，他不能“可靠地”在 G1 时选择 B，从而列参与人在观察到 B 时将不会选择 B。

14 两个人合作开发一项产品。
能否成功与两个人的工作态度有关, 设成功概率如下:

再假设成功时每人有 4 单位的利益, 失败则双方都没有利益, 偷懒本身有 1 单位的利益。问该博弈无限次重复博弈的均衡是什么?
解：两个人的收益矩阵如下:

一次博弈纳什均衡为 (偷懒, 偷懒), 无法实现帕累托最优 (努力, 努力)。无限次博弈时, 对于A, 第一阶段选择努力,
(1) 若前 1 时刻选择均为努力, $t$ 时刻也选择努力

\[\pi_A=\lim _{t \rightarrow \infty} \frac{9}{4}\left(1+\delta+\delta^2+\ldots+\delta^t\right)=\frac{9}{4(1-\delta)} \]

(2) $t$ 时刻选择偷懒, 则前面的行为均为偷懒

\[\pi_A^{\prime}=\frac{5}{2}+\lim _{t \rightarrow \infty} 2\left(\delta+\delta^2+\ldots+\delta^t\right)=\frac{5}{2}+\frac{\delta}{4-\delta} \]

达到 (努力, 努力) 这个均衡, 使 $\pi_A>\pi_A^{\prime}$ , 即 $\delta>\frac{1}{2}$ , 采取触发策略，均衡为（努力，努力），合作产生。

15 市场进入博弈
一个完全垄断企业B正在垄断一个行业市场，另一个潜在的试图进入该行业的企业A，称A为进入者，B为在位者。A不知道B的成本特征，设B有两种可能的成本，即高成本和低成本。两种成本情况下的博弈矩阵如下图。假定B知道进入者A的成本为高成本，且与B为高成本时的成本相同，求其贝叶斯纳什均衡。

解：若信息是完全的，则当B为高成本时，唯一的精炼纳什均衡为（进入，默认），另一纳什均衡（不进入，斗争）是含有不可置信的威胁。当B为低成本时，唯一的纳什均衡为（不进入，斗争），即若A进入行业，具有低成本优势的B将通过降低价格将A逐出市场。由于存在行业进入成本，所以A被逐出市场后将有净的10单位进入成本的损失。当A不知道B的成本情况时，他的选择将依赖于他对B的成本类型的主观概率或先验概率密度。
设A对B是高成本的先验概率判断为 $p$ ，则A认为B为低成本的概率为 $1-p$ 。
如果A进入，其期望支付为 $p(40) + (1 - p)( - 10)$ ；如果A不进入，其期望支付为0。
当且仅当 $p(40) + (1 - p)( - 10) \ge 0$ 或 $p\ge\frac{1}{5}$ 时，A选择进入；反之，当 $p<\frac{1}{5}$ 时，A不进入。
于是，贝叶斯均衡为：（进入，默认），高成本， $p>\frac{1}{5}$ ；（进入，斗争），低成本， $p<\frac{1}{5}$ ；不进入， ）， $p=\frac{1}{5}$ ，其中 表示可以是斗争，也可以是默认。

16 成本为私有信息的双寡头古诺博弈
两个厂商生产相同产品在市场上进行竞争性销售。第1个厂商的成本函数为 $c_1=q_1$ ，其中 $q_1$ 为厂商1的产量。第2个厂商的成本函数为 $c_2=cq_2$ ，其中 $q_2$ 厂商2的产量， $c$ 为其常数边际成本。两个厂商的固定成本都为零。厂商2的边际成本 $c$ 是厂商2的“私人信息”，厂商 1 认为 $c$ 在 $\left[\frac{1}{2}, \frac{3}{2}\right\rfloor$ 上呈均匀分布。设市场需求函数为 $P=4-q_1-q_2$ , 其中 $P$ 为价格, 两个厂商都以其产量为纯战略, 问纯策略贝叶斯均衡为何?
解 : 给定 $q_2$ , 厂商 1 的问题是

\[\max _{q_1} \pi_1=(P-1) q_1=\left(4-q_1-q_2-1\right) q_1 \]

因 $q_2=q_2(c)$ 。广商 1 不知道 $c$ ，故目标函数为

\[\max _{q_1} \int_{\frac{1}{2}}^{3 / 2}\left(4-q_1-q_2(c)-1\right) q_1 d c=\max _{q_1}\left[3 q_1-q_1^2-q_1 \int_{\frac{1}{2}}^{3 / 2} q_2(c) d c\right] \]

一阶条件:

\[\begin{aligned} & 3-2 q_1-\int_{\frac{1}{2}}^{3 / 2} q_2(c) dc=0 \end{aligned} \]

得$$\quad q_1=\frac{3}{2}-\frac{1}{2} \int_{\frac{1}{2}}^{3 / 2} q_2(c) dc \quad \quad \quad (1)$$
厂商 2 的问题是:

\[\max _{q_2} \pi_2=(P-c) q_2=\left(4-q_1-q_2-c\right) q_2=(4-c) q_2-q_1 q_2-q_2^2 \]

一阶条件:

\[(4-c)-q_1-2 q_2=0

\[q_2(c)=\frac{4-c-q_1}{2} \quad \quad \quad (2) \]

代入式 (1):

\[\begin{aligned} q_1 & =\frac{3}{2}-\frac{1}{2} \int_{\frac{1}{2}}^{3 / 2} \frac{4-c-q_1}{2} d c=\frac{3}{2}-\frac{1}{2} \int_{\frac{1}{2}}^{3 / 2} \frac{4-q_1}{2}+\frac{1}{4} \int_{\frac{1}{2}}^{3 / 2} c d c \\ & =\frac{3}{2}-\frac{4-q_1}{4}+\frac{1}{8}\left[\left(\frac{3}{2}\right)^2-\left(\frac{1}{2}\right)^2\right]=\frac{3+q_1}{4} \end{aligned} \]

得 $q_1=1$
代入式 (2):

\[q_2(c)=\frac{3-c}{2} \]

若 $c=1$ , 则 $q_1=q_2=1$

\[\pi_1=\pi_2=1 \]

若信息是完全的且 $c=1$ , 则古诺博弈均衡为 $q_1=q_2=\frac{3}{5}<1, \pi_1=\pi_2=\frac{27}{25}>1$ 。

17 下图博弈是一个不完全信息动态博弈，在位者和进入者之间的竞争决策。假设市场中存在者的成本有两种可能性：高成本（概率为μ）和低成本（概率为1−μ）。在位者会根据成本情况设置不同的价格 $P=4,5,6$ 来影响潜在进入者的决策。试给出其分离均衡和混同均衡。

解：混同均衡
在位者的策略 ：

高成本和低成本的存在者选择相同的价格 $P$ ，使得进入者无法根据价格推断存在者的成本。例如，高成本和低成本存在者都选择 $P = 5$ 。

进入者的策略 ：

进入者在观察到价格 $P$ 之后，基于信念（即存在者是高成本或低成本的概率分布），决定是否进入市场。由于存在者采取相同的策略，进入者不能确定存在者的成本，因此会混合地选择进入与否。

混同均衡下的信念更新 ：

如果进入者看到 $P = 5$ ，他无法判断存在者的成本类型，因此基于贝叶斯更新规则，进入者可能会假设两种成本的概率都是 $\frac{1}{2}$ 或根据先验概率 $\mu$ 和 $1 - \mu$ 来更新信念）。

存在者的策略 ：

高成本和低成本的存在者选择不同的价格。比如，高成本的存在者选择 $P = 6$ ，而低成本的存在者选择 $P = 4$ 。通过这种价格选择，进入者可以通过观察到的价格来推断存在者的成本类型。

进入者的策略 ：

进入者观察到价格后，可以准确地判断存在者的成本类型。如果看到 $P = 6$ ，他会知道存在者是高成本类型；如果看到 $P = 4$ ，他会推测存在者是低成本类型。

信念更新 ：

进入者根据价格直接更新自己的信念为确定的值（即高成本对应特定价格，低成本对应另一特定价格），从而做出相应的进入或不进入决策。

18 如下图，求不完全信息扩展式博弈的所有混同均衡(pooiing)和分离均衡(separating)。

18题图(1) 18题图(2)

解：(1)玩家1有两种分离策略
w类别选择R，s类别选择L。信息集的概率为1，基于观察玩家1选择的条件。观察L后，玩家2认为玩家1是s类别，观察R后，玩家2认为玩家1是w类型。因此，在左侧信息集中，玩家2选择d，在右侧信息集中，玩家2选择u。给定玩家2的最优行动，玩家1的每种类型都没有有利可图偏差：对于w型，偏差产生1，无偏差产生5；对于s型，偏差产生2，无偏差产生4。
w类别选择L，s类别选择R。信息集的概率为1，基于观察玩家1选择的条件。观察L后，玩家2认为玩家1是w类型，观察R后，玩家2认为玩家1是s类型。因此，在左侧信息集中，参与人2选择u，在右侧信息集中，玩家2选择d。给定玩家2的最优行动，玩家1的每种类型的都没有有利可图偏差：对于w型，偏差产生2，无偏差产生3，对于s类型，偏差产生2，无偏差产生3。
(2)玩家1有两种分离策略
w类别选择R，s类别选择L。信息集的概率为1，基于观察玩家1选择的条件。观察R后，玩家2认为玩家1是s类别。因此，玩家2选择u，给定玩家2的最优行动，每种类型的玩家1都没有盈利偏差。
w类别选择L，s类别选择R。信息集的概率为1，基于观察玩家1选择的条件。观察R后，玩家2认为玩家1是s类别。因此，玩家2选择d。给定玩家2的最优行动，每种类型的玩家1都没有盈利偏差。
接下来讨论混同策略
无论类别，都选R。信息集的概率为1，基于观察玩家1选择的条件。观察R后，玩家2认为玩家1有0.5的概率为w类别，有0.5的概率为s类别。玩家2从U得期望效用是0.5×(1-1)=0，从D得期望效用是0.5 ×(0+2)=1。因此玩家2选D。假设玩家2选D，w类别的玩家1有动机倾向于选择L，因为L的收益是2，而R的收益是1。因此不存在这样的完美贝叶斯均衡。
无论类别，都选L。信息集的概率为1，不再基于观察玩家1选择的条件。玩家2可以选择任何信念。对于玩家2的任何信念，如果玩家2选择U，那么s类别的玩家1就有偏离的动机。如果玩家2选择D，那么s类别玩家1就有偏离的动机。因此不存在这样的完美贝叶斯均衡。这里不考虑混合策略。

博弈论07：不完全信息扩展式博弈