11第十一章扩展型博弈与子博弈精炼

第十一章扩展型博弈与子博弈精炼上一章讨论了完全信息静态博弈,本章讨论完全信息动态博弈。

本章的核心内容是:

动态博弈→静态博弈

11.1扩展型博弈的表达式

一、博弈的扩展形式

1.概念

在静态博弈中,所有参与人同时行动(或行动虽有先后,但没有人在自己行动之前观测到别人的行动)。

在动态博弈中,参与人的行动有先后顺序,且后行动者在自己行动之前能观察到先行者的行动。

用战略形式描述和分析静态博弈,也可用扩展式形式描述和分析动态博弈。

博弈的战略式表述包括三个因素:

(1)参与人集合;

(2)每个参与人的战略集合;

(3)由战略组合决定的每个参与人的支付。

博弈的扩展式“扩展”的主要是参与人的战略空间。

战略式只是简单地给出参与人可选择的战略,而扩展式要给出每个战略的动态描述。

谁什么时候行动,每次行动有哪些选择,以及有什么样的信息。所以扩展式给出参与人的相机行动规则(contingentactionplan),即什么情况下选择什么行动,而不是简单的与环境条件无关的行动。

博弈扩展式可由以下要素表述:

(1)参与人集合i

参与人“自然”;

(2)参与人的行动顺序,即谁在什么时候行动;

(3)参与人的行动空间,即每次行动有些什么选择;

(4)参与人的信息集,即每次行动时知道些什;

(5)参与人的收益函数,即在行动结束后,每个参与人得到些什么(支付是所有行动的函数);

(6)外生事件(即自然选择)的概率分布。如同两人有限战略博弈的战略式表述可以用博弈矩阵表示一样,n人有限战略博弈的扩展式表述可以用博弈树来表示。=1,2,L,n,用N表示虚拟

2、动态博弈过程:

以房地产开发博弈为例。

假定行动顺序为:开发商A先决策,选择开发或不开发;在A决策后,自然N选择市场需求;开发商B在观测到A的决策和市场需求后再决策开发或不开发。

博弈过程可用决策树来描述分析,信息概念在分

析中发挥中心作用。

图11-1博弈的决策树

博弈树给出了有限博弈的几乎所有的信息。博弈树的构造包括结、枝和信息集。

(1)结(nodes)

结分为决策结和终点结。

决策结是参与人采取行动的时点,终点结是博弈路径(path)的终点。

在决策树中,决策结用空心圆(初始结)和实心圆(其它结)标出;终点结对应着参与人的收益(支付)结果。

用X表示所有结的集合,x∈X表示某个特定的结,用p表示定义在X上的顺序关系,x1

传递性(transitive)意味着若x1px2意px2,味着x1在x2之前,假定p满足传递性和反对称性。x2px3,则x1px3,即如果x1在x2之前,而x2在x3之前,则x1在x3之前;

反对称性(asymmetric)意味着如果x1

那么x2px2,px1不成立,即如果x1在x2之前,那么x2就不可能在x1之前。

传递性和反对称性意味着顺序关系p是半序的(partialorder),即有些结之间是不可比较的,比如在图11-1中,A的决策结在B的决策结之前,但B的四个决策结之间是不可比的。

定义:

P(x)是x之前的所有结的集,称为x的前列集,T(x)是x之后的所有结的集,称为x的后续集,若P(x)=φ,则x称为初始结(即前列集合为空集),若T(x)=φ,则x称为终点结(即后续集为空集)。

注意:

传递性和反对称性假设排除了下图的情况,

但是却没有排除这种情况

我们希望的是,博弈树的任何一个结都是所有之前发

生的事件的一个完整描述,也就是说,从初始结到任何一个结只有唯一的路径。所以不必要排除此种情况。为此,假定:

如果

或者x2x1px,x2px,那么,或者x1px2px1。也就是说,x的所有前列结必须是全排序的。

(2)枝(branches)

从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。

(4)信息集(informationsets)

博弈树上的所有决策结分割成不同的信息集,每一个信息集都是决策结集合的一个子集,该子集包括所有满足下列条件的决策结:

①每一个决策结都是同一参与人的决策结;

②该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪个决策结。

引入信息集的目的是描述下列情况,当一个参与人要做出决策时,他可能并不知道“之前”发生的所有事情。这里所谓“之前”是因为博弈树中的决策结的排序并不一定与行动时间排序相一致。

图11-2决策结与信息集

开发商的例子中,

若B在决策时并不确切知道自然的选择,B的信息集就由4个变成2个,每个信息集包括两个决策结,如果A开发,B开发否?如果A不开发,那么B开发否?(图11—2中,同一信息集的决策结用粗虚线连接)。

或者B知道自然的选择,但不知道A的选择(如B和A同时决策),则B的信息集也是两个,在需求大时,是否开发和在需求小时是否开发(图11—2中,同一信息集的决策结用细虚线连接)。

一般用H代表信息集的集合,h∈H代表一个特定的信息集,x为决策结,h(x)为相应的包括x的信息集。h(x)可以赋予以下的意义:

h(x)是信息集意味着在点x决策的参与人i不确定他是否处于x或其他的x′′∈h(x),其意思是说一

个决策结只属于一个信息集,因为如果x′′∈h(x),那么x∈h(x′′)。

假定H满足下列条件:

①x∉P(x′′)且x′′∉P(x),任何一个决策结不能是属于同一信息的其他决策结的前列结,或后续结,其含义是参与人在任何一个决策点上记得自己之前是否行动过。

②i(x)

与人混淆。

③A(x)=i(x′′),同一信息集的所有结都是同一参与人的,含义是参与人不会将自己的行为与其他参=A(x′′),参与人在属于同一信息集的每一个决策结的行动空间是相同的,否则参与人可以通过行动空间不同来区分不同的决策结,所以可用A(h)表示给定信息集下的行动集合。

从某种意义上讲,信息集的构造和如上的三个假设反应了博弈模型的一个更为基本的假设,博弈的结构是所有参与人的共同知识,每个参与人都可以看到博弈树。

一个信息集可能包括多个决策结,也可能只包括一个决策结。

完美信息博弈:

定义只包括一个决策结的信息集称为单结信息集,若博弈树的所有信息集都是单结的,该博弈称为完美信息博弈。

从定义中知,完美信息博弈中没有任何两个参与人同时行动,并且后行动者都知道前行动者选择了什么行动,所有观察人都知道自然的行动。

在博弈树上,完美信息意味着没有任何两个决策结是用虚线连接起来的。

(4)自然的信息集

自然的信息集通常假定为单结的,因为自然是随机行动的,其在参与人决策之后行动等价于在其前行动,但参与人不能观察到。

(5)完美回忆(perfectrecall)

完美回忆是与信息集有关的概念,指没有参与人会忘记自己以前知道的事情,所有参与人都知道自己以前的选择。

11.2扩展式与标准式的转换

一、扩展式向标准式的转换

1.转换目的

标准式博弈可以视为在博弈前就确定了一个规则,其基本逻辑是如果……发生,就采取……行动。

扩展式博弈中参与人之间的博弈是相机抉择的,即等待博弈达到自己的信息集后,再决定如何行动。

由于纳什均衡解是用标准战略式定义的,所以要把扩展式转换成标准式,才能得到纳什均衡解。这就是扩展式向标准式的转换的意义。

2.转换方法:

利用标准式中的纯战略和收益函数的概念来描述扩展式博弈。

si表示第i个参与人的纯战略,ui(s1,L,sn)为第i个参与人的支付函数。

仍沿用房地产开发博弈的例子说明怎样从扩展式构造标准战略式。

假定房地产开发博弈的背景条件为:

①博弈开始之前自然就选择了“低需求”,并且已经成为参与人的共同信息;

②A先决策,B后决策。

于是在该例中构成一个完美信息博弈(每个人的信息集都是单结的)

图11—3完美信息博弈

为了构造出这个博弈的战略式表述,首先

(1)A开发商有一个信息集A(hA),包括两个可选择的行动,两个纯战略:开发与不开发,A的战

1212S={a:开发,a:不开发}={a,a}。略空间,A

(2)B开发商有两个信息集,每个信息集有开发、

1不开发两个可选择的行动。即A(hB)=2A(hB)=(开

发,不开发),所以B开发商的纯战略空间(四个纯战略)为SB2={A(h1),A(hBB)},即

SB={b1(开发,开发),b2(开发,不开发),

b3(不开发,开发),b4(不开发,不开发)}。

其中:

b1(开发,开发)意思是当A选择开发时,B选择开发,当A选择不开发时,B选择开发;

b2(开发,不开发)意思是当A选择开发时,B选择开发,当A选择不开发时,B选择不开发;

b3(不开发,开发)意思是当A选择开发时,B选择不开发,当A选择不开发时,B选择开发;

b4(不开发,不开发)意思是无论A选择开发还是选择不开发时,B都会选择不开发。

(3)所以A的战略空间SA

空间为SB={a,a},B的战略12={b1,b2,b3,b4}。

3、转换后的标准战略式

(1)战略组合

S={S1,S2}

={a1b2,a1b2,a1b3,a1b4,a2b1,a2b2,a2b3,a2b4}其中:

ab11的路径为A开发,所以B也选择开发,其收益

为(-3,-3);

ab

ab12的路径为A开发,所以B也选择开发,其收益的路径为A开发,所以B选择不开发,其收益

的路径为A开发,所以B选择不开发,其收益的路径为A不开发,所以B选择开发,其收益的路径为A不开发,所以B也选择不开发,的路径为A不开发,所以B选择开发,其收的路径为A不开发,所以B也选择不开发,为(-3,-3);13为(1,0);ab14为(1,0);abababab21为(0,1);22其收益为(0,0);23益为(0,1);24

其收益为(0,0)。

(2)支付矩阵

由战略组合分析可得如下支付矩阵:

4.转换后的纳什均衡

显然由扩展式转化为标准式战略中,该博弈有三个纯战略纳什均衡:

①ab=A开发,B(不开发,开发),(1,0);

14②ab=A开发,B(不开发,不开发),(1,0),这时A选择开发,B选择不开发。

③a2113b=A不开发,B(开发,开发),(0,1),A不开发,B开发。

所以(A开发,B不开发)和(A不开发,B开发)是该博弈的两个纯战略纳什均衡解,我们注意到均衡解与均衡是不同的。

二、扩展式博弈的战略空间

参与人i的一个纯战略si则可以定义成从信息集合Hi到行动集合Ai的一个映射,用si:Hi→Ai表示,对于所有的hi∈Hi有si(hi)∈A(hi),i的战略空间Si是纯战略si的集合,因为每一个纯战略都是从信息集到行动集的一个映射。所以第i个参与人的纯战略空间Si可以表示成每一个信息集hi上行动空间的笛卡尔积(Cartesian

hi∈Hiproduce)。Si=×A(hi),读作叉乘信息集hi的行动集合。

需要说明两个概念:

1.行动和集Ai

Hi为第i个参与人的信息集的集合,Hi={hi}或hi∈Hi,由集合论中和(并)集公理:若{Ah|h∈H}是一个集组,那么x存在一个x∈Ah是一个集,它称为这个族集的和(并)集,记作Uh∈HAh。

由和集定义可知,第i个参与人的行动集合族Ai令是一个合集,即Ai=Uh∈HA(hi),其中,A(hi)i

是第i个参与人在其信息集hi的行动集合,Ai则是由第i个参与人信息集决定的行动集的和集。

2.笛卡尔积

笛卡尔积又称为直接积,是这样定义的。假定A={Xh|h∈H},B={Yk|k∈K},那么{(xh,yk),xh∈A,yk∈B}是一个集,它称为A和B的直接积,记作A×B。

之所以称为笛卡尔积是因为集合论中存在这样的关系。有两个集合{a,b},{b,a},其中(a≠b),若不关心顺序,叫无序偶,但若a和b有顺序意义时,{a,b}≠{b,a},则称为有序集合或有序偶。表现在

笛卡尔坐标系上时,其意义很明确,若x=(1,2),y=(3,4),这样由x和y组成所有有序偶的集合{(1,3),(1,4),(2,3),(2,4)},此集合就称为笛卡尔积,或x和y的直积,以x×y表示,读作x叉乘y,也可以写成x×y={(a,b),a∈x,b∈y}。

若令x和y包括所有的实数,则x×y={(a,b),a∈R,b∈R}表示有实值的元素的全部有序偶集合,而且每个有序偶对应笛卡尔坐标上的一个点,反之,笛卡尔坐标上的一个点都对应唯一一个有序偶。如上图所示。

x×y可以描述成R;同理,

x×y×z={(a,b,c)a∈R,b∈R,c∈R}可以描因此可知,

32述R。由前面开发商的例子知:Si

1A(hB)×2A(hB)。其表示=×A(hi),B的纯战略空间SB=

{(开发,开发),(开发,不开发),(不开发,开发),(不开发,不开发)}。

一般地说,一个参与人可选择的纯战略总数#Si等于i的信息集hi行动集合的笛卡尔乘积的结果,即#Si=Π#(A(hi))。hi∈Hi

三、扩展式博弈战略组合与纳什均衡

1.在扩展式博弈中,所有n个参与人的一个纯战略组合s=(s1,s2,L,sn)决定了博弈树上的路径,每一个战略组合又决定了一个支付变量,u=(u1,u2,L,un)。

*2.战略组合s是扩展式博弈的一个纳什均衡,若

∀i(对于所有的i),

*si∈arg

si∈Si*maxui(si,s−i),∀i

这里arg是argument的缩写,是可行的,比较级的意思,Argumentmax表示可行的最大化。

注意,因为一个参与人的纳什均衡战略是假定其他参与人的战略是给定时的最优战略,所有参与人似

乎是在同时选择战略,但这并不意味着在纳什均衡中参与人一定是在同时选择行动。

例如,上例中,假定B的给定战略为(不开发,开发),那么当A假定B的战略是给定时,他并不认为B的行动不受自己决策的影响,而只是假定B根据给定的战略行动:即如果A选择开发,B选择不开发;如果A不开发,B开发。

四、扩展式博弈中的行为战略(混合战略)

在扩展式博弈中,混合战略称为行为战略,以区别于战略式博弈的混合战略概念。行为战略指参与人在每一个信息集上随机地选择行动。

令∆(A(hi))为行动集合A(hi)上的概率分布,bi为参与人i的一个行为战略,bi是笛卡尔积×hi∈Hi∆(A(hi))中的一个元素。就是说一个行为战

略规定了对应每一个信息集的行动集合上的概率分布,注意不同信息集上的概率分布是独立的,即行为

11战略可表示成若hi出现就将以∆(A(hi))的概率选择

122A(hi),若hi出现则将以∆(A(hi))的概率选择2A(hi)。显然纯战略可以理解成行为战略中概率选择

1的特例。

扩展式博弈和战略式博弈的关系:

(1)两者有相同的纯战略空间;

(2)战略式博弈的混合战略空间不同于扩展式博弈的行为战略空间;

(3)库恩(Kuhn,1953)证明在完美回忆博弈中,混合战略Pi等价于唯一的行为战略bi,任何一个行为战略bi的等价于每一个从该行为战略构造的混合战略Pi,等价的意义在于,对于其他参与人的所有战略Pi和bi在结果(收益)上定义了相同的概率分布,所以在完美回忆博弈中,混合战略可代替行为战略概念。

五、完美信息博弈纳什均衡定理

1.如果一个扩展式博弈有有限个信息集,每个信息集上参与人有有限个选择,则定义为该博弈为有限博弈;

2.若一个扩展式博弈是有限博弈,那么对应的战略式博弈也是有限博弈,由纳什均衡存在性定义知,其存在一个混合战略纳什均衡;

3.若该博弈又是完美信息博弈,即每一个信息集都是单结的,那么它只有一个纯战略纳什均衡。

Zermelo(1913)和库恩(Kuhn,1953)认定,一个有限完美信息博弈有一个纯战略纳什均衡。

六、逆向归纳——信息完美条件下扩展博弈求解的方法

逆向归纳方法,实际上是动态规划中的最优化原理的应用。

该原理是由英国的R.Bellman首先提出的:“作为整个过程的最优策略具有这样的性质,即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优决策。”利用这个原理,可以把多阶段决策过程看成是一个连续递推过程,由后向前逐步推算。求解时,各状态前面的状态和决策,对后面的子问题而言,只不过相当于初始条件而已,并不影响后面过程的最优决策。因此在动态规划中,调整的是某一参与人的最优决策,其他参与人的行为都视为状态条件。具体操作时就是采用逆向递推,从终点开始向起点方向寻找最优路径,所以又称逆序解法。

在博弈中逆向归纳要求博弈是有限的。博弈树上一定存在一个最后的决策结的集合。参与人在该决策结上选择自己最大化的支付行动。给定这个参与人的

选择后,倒数第二个决策结上的参与人将选择一个可行的行动最大化自己的支付,如此等等。直到初始结,完成这个过程后,我们可以得到一个路径,该路经给出了每一个参与人的特定的战略,所有这些战略构成一个纳什均衡。这里的关键是可行的行动最大化。

这种方法实际上是重复剔除劣战略方法在扩展式博弈中的应用。从最后一个决策结开始往回倒推。每一步剔除在该决策结上参与人的劣战略,因此,在均衡路径每一个参与人在每一个信息集上的选择都是占优选择。

11.3子博弈精炼纳什均衡

目的:改进Nash均衡使其适用于动态博弈。

一、背景问题

1、问题的提出

归纳前面的讨论,可以得出以下三点结论:

(1)战略式表述可以描述任何复杂的扩展式博弈,纳什均衡概念也可以运用于任何博弈,而不仅仅是参与人同时行动的静态博弈。

(2)若博弈分析是为预测博弈中参与人的行为,纳什均衡给出的可能不是一个非常合理的预测,因为一个博弈可能有无穷多个纳什均衡,只有一个更合理。

(3)纳什均衡假定每个参与人在选择自己的最优战略时,所有其他参与人的战略是给定的。就是说,参与人不考虑自己的选择对其他人选择的影响。而在动态博弈中,参与人的行动有先有后,后者的选择空间依赖于前者的行动选择,前者在选择战略时也不能不考虑这些选择对后者的影响。

所以纳什均衡的战略给定的假定在动态博弈中是不合理的。

于是自60年代以来,人们开始寻求改进

(perfecting)和精炼(refining)纳什均衡的概念。泽尔腾(Selten)“子博弈精炼纳什均衡”是第一个重要改进,它的目的是把动态博弈中“合理的纳什均衡”与“不合理的纳什均衡”分开。

所以纳什均衡是完全信息静态博弈的基本概念,而子博弈精炼纳什均衡则是完全信息动态博弈的基本概念。

2.例子:不可置信(notcredible)战略

在上节的例子中,

①A不开发,B选择{开发,开发},

②A不开发,B选择{不开发,开发},

③A开发,B选择{不开发,不开发}都是纳什均衡解。

其中哪一个更为合理,下面进行讨论。

(1)第一个战略组合(不开发,{开发,开发})构成纳什均衡的意义是:因为B采取的战略是无论A是否开发,B都开发,这实际上是一种威胁。

那么A如果相信B的威胁,不开发将是最优选择,与此对应,B假定A将选择不开发,在此之下,{开发,开发}是B的最优选择。

但是A为什么要相信B的威胁呢?毕竟A真的选择了开发,B的信息集是x,此时B的选择开发得到-3的支付,选择不开发反而是0的支付,显然B的最优选择是不开发。

如果A知道B是理性的,A将选择开发,逼使B选择不开发,自己得到1的支付,而不是选择不开发,让B开发,自己得到0的支付。

所以用博弈的语言来说,纳什均衡(不开发,{开发,开发})是不可置信的。因为它依赖于B的一个不可置信的威胁战略,B的战略之所以不可置信,是因为给定A真的选择开发,B也不会开发,实施自己的威胁。

(2)第二个战略组合(开发,{不开发,不开发})同样是纳什均衡。这个均衡是说B采用无论A是否开发,B都选择不开发的战略。

尽管这个均衡结果(A开发,B不开发)看似合理,

但是其均衡战略本身并不合理。因为A选择开发,B的信息集是x,此时B选择不开发是合理的;但若是A选择不开发时,B的信息集是x′,最优选择应是开发。所以B的战略仍然是不可置信的。

(3)只有第三个纳什均衡(开发,{不开发,开发})合理,因为构成这个均衡的每一个参与人的均衡战略都是合理的。

A选择开发,则B选择不开发,若A选择不开发,那么B选择开发。显然A预测到自己的选择对B的影响,开发是A的最优选择,均衡结果是A开发,B不开发,支付为(1,0)。所以这个纳什均衡是子博弈精炼纳什均衡。

二、子博弈精炼纳什均衡

泽尔腾(Selten,1965)引入这个概念的目的是将包含不可置信的威胁战略的纳什均衡从均衡中剔除掉,从而给动态博弈结果一个合理的预测。

简单地说即要求均衡战略的行为规则在每一个信息集上都是最优的。

1、子博弈

粗略讲,子博弈是原博弈的一部分,本身可以作为一个独立的博弈分析。

定义:

一个扩展式博弈的子博弈G由一个决策结x和所有的该决策结的后续结T(x)(含终点结)组成,其应满足:

={x};

②对于所有的x′∈T(x),如果x′′∈h(x′)那么x′′∈T(x)。①x是一个单结信息集,即h(x)

其意思是:

条件①是说子博弈必须从一个单结信息集开始。这意味着当且仅当决策者在原博弈中确切知道博弈进入一个特定决策结时,该决策结才能作为一个子博弈的初始结,如果一个信息集含有两个以上的决策结,则没有一个决策结可以作为子博弈的初始结。

显然,一个完美信息博弈的每个决策结都开始一个子博弈,即每个决策结和它的后续结构成一个子博弈。

条件②是说子博弈信息集和支付向量都直接继承自原博弈。就是说,当且当x′和x′′在原博弈中属于同一信息集时,他们在子博弈才属于同一信息集,子博弈支付函数只是原博弈支付函数留存在子博弈的部分。

其实条件①和②意味着子博弈不能切割原博弈的信息集。实际上这样规定的目的是保证子博弈能够对应于原博弈中可能出现的情况。如果不满足这两个条件,参与人在原博弈中不知道的信息在子博弈中就变成知道的信息,从子博弈中得到的结论对原博弈就没有意义。

习惯上,任何博弈本身称为自身的一个子博弈。图中含有3个子博弈。

2.子博弈精炼纳什均衡

(1)定义:

****(s=s,L,s,L,s扩展式博弈的战略组合1in)

是一个子博弈精炼纳什均衡,如果

①它是原博弈的纳什均衡;

②它是在每一个子博弈上给出的纳什均衡。

简单而言,一个战略组合是子博弈精炼纳什均衡,当且仅当它在每个子博弈(包括原博弈)上都构成一个纳什均衡。如果整个博弈是唯一的子博弈,那么纳什均衡与子博弈精炼纳什均衡相同。如果有其他子博弈存在,有些纳什均衡可能不构成子博弈精炼纳什均衡。

混合战略(行为战略)子博弈精炼纳什均衡可以类似的定义。

(2)“在每一个子博弈上给出纳什均衡”的意义可以这样理解。

①若一个博弈有n个子博弈,则一个特定的纳什均衡决定了原博弈树上唯一路径,称为均衡路径,博弈树上其他路径称为非均衡路径。

上例中,A不开发,x′,B开发,得出支付(0,1)是纳什均衡(不开发,{开发,开发})的均衡路径,其他路径均为非均衡路径。

所以纳什均衡只要求均衡战略在均衡路径的决策结上是最优的,这句话有点同义反复。

②在每一个子博弈上给出纳什均衡,意味着构成子博弈精炼纳什均衡的战略不仅在均衡路径的决策结上是最优的,而且在非均衡路径的决策结上也是最优

的,这是纳什均衡与子博弈纳什均衡的实质区别。

③其最主要想表达这样一个思想,战略是参与人行动规则的完备描述,它要告诉参与人在每一种情况下可预见的情况,即在每一个决策结上选择什么样的行动,即使这种情况没有发生,甚至参与人并不预期它会发生。

因此,只有当一个战略规定的行动规则在所有情况下都是最优时,它才是合理的可置信的战略。

子博弈精炼纳什均衡是要剔除只在特定情况下合理的,而在其他情况下并不合理的行动规则。

实际上博弈论常用序贯理性,不论过去发生了什么,参与人应该在博弈的每一个时点上最优化自己的决策(就是动态规划最优化原理)。

子博弈要求参与人是序贯理性的。

3、子博弈划分:

仍以前例,其有3个子博弈,除了自身以外,还有始于x和x′的两个子博弈。参阅图11—6:

这个博弈有3个纳什均衡:

①(不开发;(开发,开发))

②(开发;(不开发,开发))

③(开发;(不开发,不开发))。

它们是否都满足子博弈精炼纳什均衡呢?

(1)子博弈Ⅰ中,B的最优选择是不开发;子博弈Ⅱ中B的最优选择是开发。

(2)对于纳什均衡①(不开发;(开发,开发))而言,在子博弈Ⅱ上构成纳什均衡,但在子博弈Ⅰ中没有构成纳什均衡,所以①不是一个子博弈精炼纳什均衡。

(3)对于纳什均衡③(开发;(不开发,不开发))而言,在子博弈Ⅰ上构成纳什均衡,但在子博弈Ⅱ中没有构成纳什均衡,所以③不是一个子博弈精炼纳什均衡。

(4)只有纳什均衡②(开发;(不开发,开发))在子博弈Ⅰ和子博弈Ⅱ中同时构成纳什均衡。所以②是该博弈的子博弈精炼纳什均衡,B的战略(不开发,开发)是唯一的子博弈精炼纳什均衡解。

三、用逆向归纳法求解子博弈精炼纳什均衡

1.求解步骤:

步骤1.

从博弈最后一个决策结开始,参与人确定一个最优选择,这个最优选择就是该决策结开始的子博弈纳什均衡,如果该决策结上的最优行动多于一个,那么允许参与人选择其中任何一个,如果最后一个决策者有多个决策结,那么每一个决策结开始的子博弈都有一个纳什均衡。

步骤2.

回到倒数第二个决策结,即最后决策结上的直接前列结,找出倒数第二个决策者的最优选择与第一个决策者的最优选择共同构成一个子博弈的纳什均衡,这样一直反复工作到初始结。

对于有限完美信息博弈而言,逆向归纳法是求解子博弈精炼纳什均衡的最简单方法,因为有限完美信息博弈的每个决策结都是一个单独的信息集,每个决

策结都开始一个子博弈。

2.形式化讨论:

假定两个阶段的博弈,第一阶段参与人1行动,

第二阶段参与人2行动,且2行动前观测到1的选择。A1是参与人1的行动空间,a1∈A1;A2是参与人2的行动空间,a2∈A2。

(1)第二阶段参与人2面临的问题是

*maxu2(a1,a2),参与人2的最优选择是a2,由于a2∈A2

*其依赖于1的选择a1,所以a2=R2(a1)代表最优

解,即2的反应函数。

(2)由于参与人1应预测到参与人2在博弈的第

*二阶段按a2=R2(a1)的规则行动,所以参与人1的

a1∈A1第一阶段面临的问题maxu1(a1,R2(a1)),令上述

*问题的最优解为a1。

(3)这个博弈的子博弈精炼纳什均衡为(*a1,R2(a1)均衡结果为)(**a1,R2(a1)。)

(

*a2**a1,R2(a1))是一个精炼均衡,因为=R2(a1)在博弈第二阶段是最优的,其他都不满

足精炼均衡的要求。

3.例子

可以得到求解这个子博弈精炼纳什均衡的过程如

下:

(1)在第二阶段,B的最优行动规则是(不开发,开发),即如果A在第一阶段选择了开发,则B在第二阶段选择不开发;如果A在第一阶段选择了不开发,B在第二阶段选择开发。

(2)在第一阶段,因为A在第一阶段预见到了B在第二阶段会按上述规则行动,所以A的最优选择就是开发。

所以用逆向归纳法得到的精炼均衡是(开发;(不开发,开发))。

分析表明,用逆向归纳法求解子博弈精炼纳什均衡的过程实质上是重复剔除劣战略在扩展式博弈中的

扩展。从最后一个决策节开始,依次剔除每个子博弈的劣战略,最终生存下来的就是精炼纳什均衡。

另外,根据定义逆向归纳法只适用于完全信息博弈。

11.4重复博弈和无名氏定理

一、背景介绍

1.前面谈到的扩展式动态博弈有一个特征,这就是参与人在前一个阶段的行动选择决定以后的子博弈结构。

因此从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一次(比如在房地产开放博弈的例子中,开发商A选择“开发”后的子博弈就不同于选择“不开发”后的子博弈,在开发商B选择之后,博弈结束),被称为序贯博弈(sequentialgames)。

但是博弈中有一种同样结构可以重复的情况,我们称为重复博弈(同样结构的博弈重复多次),其中每次博弈称为阶段博弈。例如囚徒困境中,囚徒可能重复犯罪被逮捕,从而重复前一次的博弈决策。

2.重复博弈的特征(3个基本特征)

(1)阶段性博弈之间没有物质上的联系,即前一阶段的博弈不改变后一阶段博弈的结构,对比之下,序贯博弈涉及到物质上的联系。

★(2)所有参与人都观测到G过去的历史,即在下一次阶段博弈时,大家都知道上一阶段博弈的决策情况。比如,在每一个新阶段博弈中,两个囚徒都知道同伙在过去的每次博弈中选择了抵赖还是坦白。

(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。

另外每个阶段博弈中参与人可能同时行动(比如囚徒困境),也可能不同时行动,所以不同时行动的极端博弈本身就是一个动态博弈。

重复博弈可以是完美信息博弈,也可以是不完美信息博弈。

由于存在重复博弈的第二个性质,即参与人的过去的历史是可观测到的,所以一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史(比如,如果你这次选择了坦白,那么我下次将选择坦白,如果你这次选择抵赖,我下次将选择抵赖),因此参与人在重复博弈中的战略空间远远大于和复杂于每一个阶段的博弈中的战略空间,比如囚徒困境博弈只重复5次,每个囚徒的纯战略数量大于20亿。

一个战略是一个完备的相机决策行动规则,它必须说明在每一种可能的状态下参与人的行动选择,即使参与人并不期望这种状态真的会出现。这一点意味着重复博弈可能带来一些额外的均衡结果,这些均衡结果在一次博弈中是不会出现的,这正是重复博弈的意义所在。

3.重复博弈的影响因素

(1)博弈的次数

来自短期——长期利益之间的权衡。

当博弈进行一次时,参与人只注重眼前利益;而博弈进行多次时,参与人则更加着眼于长期利益,甚至牺牲短期收益。这是重复博弈分析给出的一个强有力的结果,它为现实生活中许多合作行为和社会规范提供了解释。

(2)信息的完备性

当一个参与人的支付函数特征不为其他参与人所知时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。

这一点似乎可以用来解释为什么那些本质上并不好的人在相当长时期内干好事的现象。

二、有限次重复博弈

1.有限次重复博弈存在性定理:

令G是阶段博弈,G(T)是重复T次的重复博弈(T

上述结论中唯一的纳什均衡是关键。

定理表明,只要博弈的重复次数是有限的,重复本身并不会改变囚徒困境的均衡结果。

三、无限次重复博弈

无限次重复博弈存在着不同于有限次重复博弈的子博弈精炼均衡。

可以证明,囚徒困境中,如果参与人有足够的耐心,(抵赖,抵赖)是一个子博弈精炼纳什均衡。

下面给出囚徒困境的支付矩阵,并以此为例展开分析。

1.冷酷战略(grimstrategies)

所谓冷酷战略又称为触发战略。

意思是说任何参与人的一次性不合作行动,将触发永远的不合作。

在囚徒困境博弈中

(1)开始选择抵赖;

(2)选择抵赖一直到另一方选择了坦白,然而永远选择坦白。

就是一个冷酷战略。

2.冷酷战略是纳什均衡

其分析逻辑是这样的:

(1)囚徒j选择冷酷战略,冷酷战略是不是囚徒i的最优战略呢?(由于博弈无最后阶段,所以不能采用逆向归纳法求解)

(2)令δ为贴现因子,假定两个人的贴现因子相同;

(3)若i在博弈的某一阶段首先选择了坦白,在该阶段ui=0,而不是-1,因此i的当期净收益1;

(4)j发现i坦白后,将触发j的“永远坦白”的战略选择,这实际上是对i的惩罚,即对其机会主义行为的代价。

(5)i在随后的每一阶段的支付都是-8,因为i自己也选择坦白;

(6)如果满足下列条件,给定j没有选择坦白,i将不会选择坦白。

0+δ(−8)+δ(−8)+L

≤−1+δ(−1)+δ(−1)+L

8δ1或者−≤−1−δ1−δ

*解上述条件得到δ≥1/8。就是说若贴现率

δ≥1/8在给定j坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。

(7)假定j首先选择坦白,那么i是否有积极性坚持冷酷战略以惩罚j的不合作行为呢?给定j坚持冷酷战略,j一旦坦白就将永远坦白。

(8)i若也选冷酷战略坦白,i的收益为-8,若i选择抵赖,收益为-10,因此无论δ为多少,i都有积22

极性坚持坦白。

(9)类似地,给定j坚持冷酷战略,即使i自己首先选择坦白,坚持坦白,惩罚自己也是最优的。

这意味着,在冷酷战略下,参与人没有改正错误的机会,所以这个战略确实挺冷酷的,但冷酷的结果是双方都没有背叛对方的积极性,从而使友善的。

这样,我们就证明了冷酷战略是一个纳什均衡。

3.无限重复博弈的子博弈精炼纳什均衡

(1)冷酷战略纳什均衡下,子博弈可以划分为两类:

①没有任何参与人首先坦白,冷酷战略构成子博弈纳什均衡。

②至少一个参与人首先坦白,冷酷战略参与人只是重复单阶段博弈的纳什均衡,他自然也是整个子博弈的纳什均衡。

(2)按上例,如果δ≥1/8,即参与人有足够的耐心,冷酷战略是无限次囚徒困境博弈的子博弈精炼纳什均衡,帕累托最优(抵赖,抵赖)是每一个阶段的均衡结果,囚徒走出了一次博弈时的困境。

(3)所以结论是:

若重复博弈无穷次,且每个人有足够的耐心,任

何短期的机会主义行为的所得都是微不足道的。参与人有积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚对方的机会主义行为。

4.多重博弈子博弈精炼纳什均衡的多重性(企业合谋)

以前面讨论过的古诺模型为例进行分析。

(1)古诺a−c==3

2(a−c)ee均衡利润π1=π2=9

a−cM垄断产量为q=2

2(a−c)M垄断利润是π=4e均衡产量是q1eq2

这是某一阶段博弈的纳什均衡。

(2)若博弈重复无限次,某形式的合谋就可能作为均衡结果出现。

q因为若i和j两个企业合谋勾结,则q=2iM

q一直持续,直到j采用非合作选择生产q≠,2

e则i企业将采用冷酷战略q,并一直继续下去选择jM

qe。

(3)若i

2企业坚持合作,其利润为π(a−c)=28Mq,如果当q=2时,企业i选择短jM

3(a−c)期最优产量qi=,当期利润为8

229(a−c)(a−c)dπi=>,648

但随后阶段利润流量为(a−c)(a−c)=

所以,只要存在下列条件,i企业就没有偏离合作均衡eπi22的积极性。其条件为:

2(a−c)2(a−c)2(a−c)2+δ+δ+L≥888

2229(a−c)(a−c)2(a−c)+δ+δ+L6499

解上述条件得到δ

(4)若有*≥9/17,实际上δ≥9/17合谋个企业,合谋均衡要求

−1就是一个精炼均衡结果。n

2δ≥(1+4n(n+1)),当n→∞时,δ→1,即企

业越多,合谋就越困难。

直观上来说,企业数量越多,每个企业一次性机会主义不合作行为中的净收益相对于长远利益的损失的比率越大,因此机会主义行为的诱因就会越大。

该结论与现实观测是比较吻合的。可用来解释为什么小团体的合作靠非正式的规则就可以维持,而大团体就必须依赖于正式的规则和合约。比如,在囚徒困境中,当干坏事的合伙人越多,事情会越容易败露。

(5)事实上,合谋是精炼纳什均衡,而总是选择古诺产量也是精炼纳什均衡,更为严重的,任何介于古诺产量和垄断产量之间的所有产量选择qeq∈[,qi]都是冷酷战略精炼均衡的一个特定结2

果。

例如,n=2时,设参与人选择如下冷酷战略:M

qe①开始生产q∈[,qi];2

**②继续生产q直到有任何一个企业生产qj≠q,*M

然后生产

∗qei;*令π为生产q时的利润,π为另一企业生产qd*而i企业生产短期最优产量时的利润。那么如果下列条件满足,企业i就没有积极性偏离q:*1δ*deπ≥π+πi1−δ1−δ

9−5δ*(a−c)。就是说满足上述条件解得:q≥3(9−δ)

Mq*e的q∈[,qi]都是一个特定的子博弈精炼纳什2

Mq*均衡结果。特别地,当δ→9/17时,q→,2

**eδ→0时,q→qi。

四、无名氏定理

无名氏定理是20世纪50年代大家共知,但无人

发表,1971年由弗里德曼将这个定理扩展到子博弈精炼均衡。

1.定理:

令G为一个n人阶段博弈,G(∞,δ)为以G为阶段博弈的无限次重复博弈,a是G的一个纳什均衡(纯战略或混合战略),e=(e1,e2,L,en)是a决定的支付向量,v=(v1,v2,L,vn)是一个任意可行的支付向量,V是可行支付向量集合,那么,对于任何满足vi**>ei的v∈V(∀i),存在一个贴现因子**δδ,

v=(v1,v2,L,vn)是一个特定的子博弈精炼纳什均

2.解释

在无限次重复博弈中,如参与人有足够的耐衡结果。心,即δ足够大,那么任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精炼均衡得到。关于纳什均衡解a,需要说明:

(1)a可以是混合战略均衡,也可以是纯战略均衡;

(2)a决定的支付向量e=(e1,e2,L,en)是达到任何精炼均衡的结果v的惩罚点,又称纳什威胁点。***

在囚徒困境博弈中,a是(坦白,坦白),*

e=(−8,−8)

q=q=q12,在重复寡头博弈中,ea*是,e=ee(π1,π2)。正是由于害怕触发阶段博弈纳什均衡,参与人才有积极性保持合作。

3.可行支付集合V

(1)重复博弈的支付函数为平均支付。前面曾用未来支付的贴现值之和代表支付函数,为方便起见可采用贴现值的平均值代表支付函数。若每个阶段支付均为π,则π是平均支付值。令贴现因子为δ,那么无穷序列π,πL的贴现值之和为π

列π1,π2L的贴现值之和为x/(1−δ),无穷序∞=∑δt=1t−1πt,要使π成为π1,π2L的平均支付,要求

解之可以得到∞t−1π=∑δπt1−δt=1

∞,π=(1−δ)∑δt−1πt。

t=1

实际上是平均支付是贴现值之和的标准化,标准化因子为1−δ,使用平均支付的优点是可以和阶段博弈的支付直接比较,所以无名氏定理中的支付应为平均

支付。

=(v1,v2,L,vn)称为一

个可行支付向量,若v是阶段性博弈G的纯战略支付的凸组合,即为加权平均值(线性组合)。所有可行支付向量v

可以构成支付集合V。(2)可行支付集合V。v

图11—7是囚徒困境一例的支付集合,纳什威胁e=(−8,−8)。由无名氏定理可知,从e=(−8,−8)点向坐标轴作垂线所围成的可行支付集合V中的任何点,都可以构成一个子博弈精炼纳什均点为衡结果。

4.保留支付和理性支付

(1)保留支付定义。保留支付是指其他参与人试图给参与人i最大惩罚时参与人i能保证自己得到的最大支付,所以又称为参与人的最小最大支付。记为:

i=min(maxui(ai,a−i))a−iai

在无名氏定理中,其他参与人惩罚一个不合作者的办法是转向阶段博弈纳什均衡a,但纳什均衡支付并不是博弈中一个参与人会受到的最大惩罚,最大惩罚是保留支付,保留支付不会大于纳什均衡支付,*i≤ei,否则a*不是参与人i的最优选择,这样就与纳什均衡矛盾。在囚徒困境中,i总可以保证自己得到-8,因而保留支付等于纳什均衡支付。

(2)大于保留支付的支付为个人理性支付。这个概念的意思是指,如果要一个参与人在无限次重复博弈中有任何兴趣合作,他从合作中得到的支付不应小于保留支付,=(v,vi≥i)为个人理性支付集合,Λ=V∩V为个人理性可行支付集合,V和Λ不一定相同,Λ是V的一个子集。

(3)在纳什均衡支付严格大于保留支付的博弈中,Λ中的其他支付向量是否可以作为精炼均衡结果出现?弗登博格和马斯肯给出了肯定的回答(FudenbergandMaskin,1986)。

证明:

e=(e1,e2,L,en)可用

=(1,2,L,n)代替,即若δ足够接近于1,所无名氏定理中,

有v∈Λ,都是一个特定的子博弈精炼纳什均衡结果,即使vi

例如古诺博弈中,δ

现,若δ≥9/17时垄断利润才能出=1/2

M13(a−c)qa−cq1=q2=>=。5124

2最大均衡利润:π1=π2=0.121(a−c)

2=0.125(a−c)2

但是上述结论的前提是对不合作行为惩罚是以阶段博弈纳什均衡支付为限的。

5、“可信惩罚”战略。

阿伯罗(Abreu,1986)提出冷酷战略并不保证最大合作的战略,能够使不合作者得到最低可能支付的

可信惩罚才是最严厉的保证合作的战略。

第十一章扩展型博弈与子博弈精炼上一章讨论了完全信息静态博弈,本章讨论完全信息动态博弈。

本章的核心内容是:

动态博弈→静态博弈

11.1扩展型博弈的表达式

一、博弈的扩展形式

1.概念

在静态博弈中,所有参与人同时行动(或行动虽有先后,但没有人在自己行动之前观测到别人的行动)。

在动态博弈中,参与人的行动有先后顺序,且后行动者在自己行动之前能观察到先行者的行动。

用战略形式描述和分析静态博弈,也可用扩展式形式描述和分析动态博弈。

博弈的战略式表述包括三个因素:

(1)参与人集合;

(2)每个参与人的战略集合;

(3)由战略组合决定的每个参与人的支付。

博弈的扩展式“扩展”的主要是参与人的战略空间。

战略式只是简单地给出参与人可选择的战略,而扩展式要给出每个战略的动态描述。

谁什么时候行动,每次行动有哪些选择,以及有什么样的信息。所以扩展式给出参与人的相机行动规则(contingentactionplan),即什么情况下选择什么行动,而不是简单的与环境条件无关的行动。

博弈扩展式可由以下要素表述:

(1)参与人集合i

参与人“自然”;

(2)参与人的行动顺序,即谁在什么时候行动;

(3)参与人的行动空间,即每次行动有些什么选择;

(4)参与人的信息集,即每次行动时知道些什;

(5)参与人的收益函数,即在行动结束后,每个参与人得到些什么(支付是所有行动的函数);

(6)外生事件(即自然选择)的概率分布。如同两人有限战略博弈的战略式表述可以用博弈矩阵表示一样,n人有限战略博弈的扩展式表述可以用博弈树来表示。=1,2,L,n,用N表示虚拟

2、动态博弈过程:

以房地产开发博弈为例。

假定行动顺序为:开发商A先决策,选择开发或不开发;在A决策后,自然N选择市场需求;开发商B在观测到A的决策和市场需求后再决策开发或不开发。

博弈过程可用决策树来描述分析,信息概念在分

析中发挥中心作用。

图11-1博弈的决策树

博弈树给出了有限博弈的几乎所有的信息。博弈树的构造包括结、枝和信息集。

(1)结(nodes)

结分为决策结和终点结。

决策结是参与人采取行动的时点,终点结是博弈路径(path)的终点。

在决策树中,决策结用空心圆(初始结)和实心圆(其它结)标出;终点结对应着参与人的收益(支付)结果。

用X表示所有结的集合,x∈X表示某个特定的结,用p表示定义在X上的顺序关系,x1

传递性(transitive)意味着若x1px2意px2,味着x1在x2之前,假定p满足传递性和反对称性。x2px3,则x1px3,即如果x1在x2之前,而x2在x3之前,则x1在x3之前;

反对称性(asymmetric)意味着如果x1

那么x2px2,px1不成立,即如果x1在x2之前,那么x2就不可能在x1之前。

传递性和反对称性意味着顺序关系p是半序的(partialorder),即有些结之间是不可比较的,比如在图11-1中,A的决策结在B的决策结之前,但B的四个决策结之间是不可比的。

定义:

P(x)是x之前的所有结的集,称为x的前列集,T(x)是x之后的所有结的集,称为x的后续集,若P(x)=φ,则x称为初始结(即前列集合为空集),若T(x)=φ,则x称为终点结(即后续集为空集)。

注意:

传递性和反对称性假设排除了下图的情况,

但是却没有排除这种情况

我们希望的是,博弈树的任何一个结都是所有之前发

生的事件的一个完整描述,也就是说,从初始结到任何一个结只有唯一的路径。所以不必要排除此种情况。为此,假定:

如果

或者x2x1px,x2px,那么,或者x1px2px1。也就是说,x的所有前列结必须是全排序的。

(2)枝(branches)

从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。

(4)信息集(informationsets)

博弈树上的所有决策结分割成不同的信息集,每一个信息集都是决策结集合的一个子集,该子集包括所有满足下列条件的决策结:

①每一个决策结都是同一参与人的决策结;

②该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪个决策结。

引入信息集的目的是描述下列情况,当一个参与人要做出决策时,他可能并不知道“之前”发生的所有事情。这里所谓“之前”是因为博弈树中的决策结的排序并不一定与行动时间排序相一致。

图11-2决策结与信息集

开发商的例子中,

若B在决策时并不确切知道自然的选择,B的信息集就由4个变成2个,每个信息集包括两个决策结,如果A开发,B开发否?如果A不开发,那么B开发否?(图11—2中,同一信息集的决策结用粗虚线连接)。

或者B知道自然的选择,但不知道A的选择(如B和A同时决策),则B的信息集也是两个,在需求大时,是否开发和在需求小时是否开发(图11—2中,同一信息集的决策结用细虚线连接)。

一般用H代表信息集的集合,h∈H代表一个特定的信息集,x为决策结,h(x)为相应的包括x的信息集。h(x)可以赋予以下的意义:

h(x)是信息集意味着在点x决策的参与人i不确定他是否处于x或其他的x′′∈h(x),其意思是说一

个决策结只属于一个信息集,因为如果x′′∈h(x),那么x∈h(x′′)。

假定H满足下列条件:

①x∉P(x′′)且x′′∉P(x),任何一个决策结不能是属于同一信息的其他决策结的前列结,或后续结,其含义是参与人在任何一个决策点上记得自己之前是否行动过。

②i(x)

与人混淆。

③A(x)=i(x′′),同一信息集的所有结都是同一参与人的,含义是参与人不会将自己的行为与其他参=A(x′′),参与人在属于同一信息集的每一个决策结的行动空间是相同的,否则参与人可以通过行动空间不同来区分不同的决策结,所以可用A(h)表示给定信息集下的行动集合。

从某种意义上讲,信息集的构造和如上的三个假设反应了博弈模型的一个更为基本的假设,博弈的结构是所有参与人的共同知识,每个参与人都可以看到博弈树。

一个信息集可能包括多个决策结,也可能只包括一个决策结。

完美信息博弈:

定义只包括一个决策结的信息集称为单结信息集,若博弈树的所有信息集都是单结的,该博弈称为完美信息博弈。

从定义中知,完美信息博弈中没有任何两个参与人同时行动,并且后行动者都知道前行动者选择了什么行动,所有观察人都知道自然的行动。

在博弈树上,完美信息意味着没有任何两个决策结是用虚线连接起来的。

(4)自然的信息集

自然的信息集通常假定为单结的,因为自然是随机行动的,其在参与人决策之后行动等价于在其前行动,但参与人不能观察到。

(5)完美回忆(perfectrecall)

完美回忆是与信息集有关的概念,指没有参与人会忘记自己以前知道的事情,所有参与人都知道自己以前的选择。

11.2扩展式与标准式的转换

一、扩展式向标准式的转换

1.转换目的

标准式博弈可以视为在博弈前就确定了一个规则,其基本逻辑是如果……发生,就采取……行动。

扩展式博弈中参与人之间的博弈是相机抉择的,即等待博弈达到自己的信息集后,再决定如何行动。

由于纳什均衡解是用标准战略式定义的,所以要把扩展式转换成标准式,才能得到纳什均衡解。这就是扩展式向标准式的转换的意义。

2.转换方法:

利用标准式中的纯战略和收益函数的概念来描述扩展式博弈。

si表示第i个参与人的纯战略,ui(s1,L,sn)为第i个参与人的支付函数。

仍沿用房地产开发博弈的例子说明怎样从扩展式构造标准战略式。

假定房地产开发博弈的背景条件为:

①博弈开始之前自然就选择了“低需求”,并且已经成为参与人的共同信息;

②A先决策,B后决策。

于是在该例中构成一个完美信息博弈(每个人的信息集都是单结的)

图11—3完美信息博弈

为了构造出这个博弈的战略式表述,首先

(1)A开发商有一个信息集A(hA),包括两个可选择的行动,两个纯战略:开发与不开发,A的战

1212S={a:开发,a:不开发}={a,a}。略空间,A

(2)B开发商有两个信息集,每个信息集有开发、

1不开发两个可选择的行动。即A(hB)=2A(hB)=(开

发,不开发),所以B开发商的纯战略空间(四个纯战略)为SB2={A(h1),A(hBB)},即

SB={b1(开发,开发),b2(开发,不开发),

b3(不开发,开发),b4(不开发,不开发)}。

其中:

b1(开发,开发)意思是当A选择开发时,B选择开发,当A选择不开发时,B选择开发;

b2(开发,不开发)意思是当A选择开发时,B选择开发,当A选择不开发时,B选择不开发;

b3(不开发,开发)意思是当A选择开发时,B选择不开发,当A选择不开发时,B选择开发;

b4(不开发,不开发)意思是无论A选择开发还是选择不开发时,B都会选择不开发。

(3)所以A的战略空间SA

空间为SB={a,a},B的战略12={b1,b2,b3,b4}。

3、转换后的标准战略式

(1)战略组合

S={S1,S2}

={a1b2,a1b2,a1b3,a1b4,a2b1,a2b2,a2b3,a2b4}其中:

ab11的路径为A开发,所以B也选择开发,其收益

为(-3,-3);

ab

ab12的路径为A开发,所以B也选择开发,其收益的路径为A开发,所以B选择不开发,其收益

的路径为A开发,所以B选择不开发,其收益的路径为A不开发,所以B选择开发,其收益的路径为A不开发,所以B也选择不开发,的路径为A不开发,所以B选择开发,其收的路径为A不开发,所以B也选择不开发,为(-3,-3);13为(1,0);ab14为(1,0);abababab21为(0,1);22其收益为(0,0);23益为(0,1);24

其收益为(0,0)。

(2)支付矩阵

由战略组合分析可得如下支付矩阵:

4.转换后的纳什均衡

显然由扩展式转化为标准式战略中,该博弈有三个纯战略纳什均衡:

①ab=A开发,B(不开发,开发),(1,0);

14②ab=A开发,B(不开发,不开发),(1,0),这时A选择开发,B选择不开发。

③a2113b=A不开发,B(开发,开发),(0,1),A不开发,B开发。

所以(A开发,B不开发)和(A不开发,B开发)是该博弈的两个纯战略纳什均衡解,我们注意到均衡解与均衡是不同的。

二、扩展式博弈的战略空间

参与人i的一个纯战略si则可以定义成从信息集合Hi到行动集合Ai的一个映射,用si:Hi→Ai表示,对于所有的hi∈Hi有si(hi)∈A(hi),i的战略空间Si是纯战略si的集合,因为每一个纯战略都是从信息集到行动集的一个映射。所以第i个参与人的纯战略空间Si可以表示成每一个信息集hi上行动空间的笛卡尔积(Cartesian

hi∈Hiproduce)。Si=×A(hi),读作叉乘信息集hi的行动集合。

需要说明两个概念:

1.行动和集Ai

Hi为第i个参与人的信息集的集合,Hi={hi}或hi∈Hi,由集合论中和(并)集公理:若{Ah|h∈H}是一个集组,那么x存在一个x∈Ah是一个集,它称为这个族集的和(并)集,记作Uh∈HAh。

由和集定义可知,第i个参与人的行动集合族Ai令是一个合集,即Ai=Uh∈HA(hi),其中,A(hi)i

是第i个参与人在其信息集hi的行动集合,Ai则是由第i个参与人信息集决定的行动集的和集。

2.笛卡尔积

笛卡尔积又称为直接积,是这样定义的。假定A={Xh|h∈H},B={Yk|k∈K},那么{(xh,yk),xh∈A,yk∈B}是一个集,它称为A和B的直接积,记作A×B。

之所以称为笛卡尔积是因为集合论中存在这样的关系。有两个集合{a,b},{b,a},其中(a≠b),若不关心顺序,叫无序偶,但若a和b有顺序意义时,{a,b}≠{b,a},则称为有序集合或有序偶。表现在

笛卡尔坐标系上时,其意义很明确,若x=(1,2),y=(3,4),这样由x和y组成所有有序偶的集合{(1,3),(1,4),(2,3),(2,4)},此集合就称为笛卡尔积,或x和y的直积,以x×y表示,读作x叉乘y,也可以写成x×y={(a,b),a∈x,b∈y}。

若令x和y包括所有的实数,则x×y={(a,b),a∈R,b∈R}表示有实值的元素的全部有序偶集合,而且每个有序偶对应笛卡尔坐标上的一个点,反之,笛卡尔坐标上的一个点都对应唯一一个有序偶。如上图所示。

x×y可以描述成R;同理,

x×y×z={(a,b,c)a∈R,b∈R,c∈R}可以描因此可知,

32述R。由前面开发商的例子知:Si

1A(hB)×2A(hB)。其表示=×A(hi),B的纯战略空间SB=

{(开发,开发),(开发,不开发),(不开发,开发),(不开发,不开发)}。

一般地说,一个参与人可选择的纯战略总数#Si等于i的信息集hi行动集合的笛卡尔乘积的结果,即#Si=Π#(A(hi))。hi∈Hi

三、扩展式博弈战略组合与纳什均衡

1.在扩展式博弈中,所有n个参与人的一个纯战略组合s=(s1,s2,L,sn)决定了博弈树上的路径,每一个战略组合又决定了一个支付变量,u=(u1,u2,L,un)。

*2.战略组合s是扩展式博弈的一个纳什均衡,若

∀i(对于所有的i),

*si∈arg

si∈Si*maxui(si,s−i),∀i

这里arg是argument的缩写,是可行的,比较级的意思,Argumentmax表示可行的最大化。

注意,因为一个参与人的纳什均衡战略是假定其他参与人的战略是给定时的最优战略,所有参与人似

乎是在同时选择战略,但这并不意味着在纳什均衡中参与人一定是在同时选择行动。

例如,上例中,假定B的给定战略为(不开发,开发),那么当A假定B的战略是给定时,他并不认为B的行动不受自己决策的影响,而只是假定B根据给定的战略行动:即如果A选择开发,B选择不开发;如果A不开发,B开发。

四、扩展式博弈中的行为战略(混合战略)

在扩展式博弈中,混合战略称为行为战略,以区别于战略式博弈的混合战略概念。行为战略指参与人在每一个信息集上随机地选择行动。

令∆(A(hi))为行动集合A(hi)上的概率分布,bi为参与人i的一个行为战略,bi是笛卡尔积×hi∈Hi∆(A(hi))中的一个元素。就是说一个行为战

略规定了对应每一个信息集的行动集合上的概率分布,注意不同信息集上的概率分布是独立的,即行为

11战略可表示成若hi出现就将以∆(A(hi))的概率选择

122A(hi),若hi出现则将以∆(A(hi))的概率选择2A(hi)。显然纯战略可以理解成行为战略中概率选择

1的特例。

扩展式博弈和战略式博弈的关系:

(1)两者有相同的纯战略空间;

(2)战略式博弈的混合战略空间不同于扩展式博弈的行为战略空间;

(3)库恩(Kuhn,1953)证明在完美回忆博弈中,混合战略Pi等价于唯一的行为战略bi,任何一个行为战略bi的等价于每一个从该行为战略构造的混合战略Pi,等价的意义在于,对于其他参与人的所有战略Pi和bi在结果(收益)上定义了相同的概率分布,所以在完美回忆博弈中,混合战略可代替行为战略概念。

五、完美信息博弈纳什均衡定理

1.如果一个扩展式博弈有有限个信息集,每个信息集上参与人有有限个选择,则定义为该博弈为有限博弈;

2.若一个扩展式博弈是有限博弈,那么对应的战略式博弈也是有限博弈,由纳什均衡存在性定义知,其存在一个混合战略纳什均衡;

3.若该博弈又是完美信息博弈,即每一个信息集都是单结的,那么它只有一个纯战略纳什均衡。

Zermelo(1913)和库恩(Kuhn,1953)认定,一个有限完美信息博弈有一个纯战略纳什均衡。

六、逆向归纳——信息完美条件下扩展博弈求解的方法

逆向归纳方法,实际上是动态规划中的最优化原理的应用。

该原理是由英国的R.Bellman首先提出的:“作为整个过程的最优策略具有这样的性质,即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优决策。”利用这个原理,可以把多阶段决策过程看成是一个连续递推过程,由后向前逐步推算。求解时,各状态前面的状态和决策,对后面的子问题而言,只不过相当于初始条件而已,并不影响后面过程的最优决策。因此在动态规划中,调整的是某一参与人的最优决策,其他参与人的行为都视为状态条件。具体操作时就是采用逆向递推,从终点开始向起点方向寻找最优路径,所以又称逆序解法。

在博弈中逆向归纳要求博弈是有限的。博弈树上一定存在一个最后的决策结的集合。参与人在该决策结上选择自己最大化的支付行动。给定这个参与人的

选择后,倒数第二个决策结上的参与人将选择一个可行的行动最大化自己的支付,如此等等。直到初始结,完成这个过程后,我们可以得到一个路径,该路经给出了每一个参与人的特定的战略,所有这些战略构成一个纳什均衡。这里的关键是可行的行动最大化。

这种方法实际上是重复剔除劣战略方法在扩展式博弈中的应用。从最后一个决策结开始往回倒推。每一步剔除在该决策结上参与人的劣战略,因此,在均衡路径每一个参与人在每一个信息集上的选择都是占优选择。

11.3子博弈精炼纳什均衡

目的:改进Nash均衡使其适用于动态博弈。

一、背景问题

1、问题的提出

归纳前面的讨论,可以得出以下三点结论:

(1)战略式表述可以描述任何复杂的扩展式博弈,纳什均衡概念也可以运用于任何博弈,而不仅仅是参与人同时行动的静态博弈。

(2)若博弈分析是为预测博弈中参与人的行为,纳什均衡给出的可能不是一个非常合理的预测,因为一个博弈可能有无穷多个纳什均衡,只有一个更合理。

(3)纳什均衡假定每个参与人在选择自己的最优战略时,所有其他参与人的战略是给定的。就是说,参与人不考虑自己的选择对其他人选择的影响。而在动态博弈中,参与人的行动有先有后,后者的选择空间依赖于前者的行动选择,前者在选择战略时也不能不考虑这些选择对后者的影响。

所以纳什均衡的战略给定的假定在动态博弈中是不合理的。

于是自60年代以来,人们开始寻求改进

(perfecting)和精炼(refining)纳什均衡的概念。泽尔腾(Selten)“子博弈精炼纳什均衡”是第一个重要改进,它的目的是把动态博弈中“合理的纳什均衡”与“不合理的纳什均衡”分开。

所以纳什均衡是完全信息静态博弈的基本概念,而子博弈精炼纳什均衡则是完全信息动态博弈的基本概念。

2.例子:不可置信(notcredible)战略

在上节的例子中,

①A不开发,B选择{开发,开发},

②A不开发,B选择{不开发,开发},

③A开发,B选择{不开发,不开发}都是纳什均衡解。

其中哪一个更为合理,下面进行讨论。

(1)第一个战略组合(不开发,{开发,开发})构成纳什均衡的意义是:因为B采取的战略是无论A是否开发,B都开发,这实际上是一种威胁。

那么A如果相信B的威胁,不开发将是最优选择,与此对应,B假定A将选择不开发,在此之下,{开发,开发}是B的最优选择。

但是A为什么要相信B的威胁呢?毕竟A真的选择了开发,B的信息集是x,此时B的选择开发得到-3的支付,选择不开发反而是0的支付,显然B的最优选择是不开发。

如果A知道B是理性的,A将选择开发,逼使B选择不开发,自己得到1的支付,而不是选择不开发,让B开发,自己得到0的支付。

所以用博弈的语言来说,纳什均衡(不开发,{开发,开发})是不可置信的。因为它依赖于B的一个不可置信的威胁战略,B的战略之所以不可置信,是因为给定A真的选择开发,B也不会开发,实施自己的威胁。

(2)第二个战略组合(开发,{不开发,不开发})同样是纳什均衡。这个均衡是说B采用无论A是否开发,B都选择不开发的战略。

尽管这个均衡结果(A开发,B不开发)看似合理,

但是其均衡战略本身并不合理。因为A选择开发,B的信息集是x,此时B选择不开发是合理的;但若是A选择不开发时,B的信息集是x′,最优选择应是开发。所以B的战略仍然是不可置信的。

(3)只有第三个纳什均衡(开发,{不开发,开发})合理,因为构成这个均衡的每一个参与人的均衡战略都是合理的。

A选择开发,则B选择不开发,若A选择不开发,那么B选择开发。显然A预测到自己的选择对B的影响,开发是A的最优选择,均衡结果是A开发,B不开发,支付为(1,0)。所以这个纳什均衡是子博弈精炼纳什均衡。

二、子博弈精炼纳什均衡

泽尔腾(Selten,1965)引入这个概念的目的是将包含不可置信的威胁战略的纳什均衡从均衡中剔除掉,从而给动态博弈结果一个合理的预测。

简单地说即要求均衡战略的行为规则在每一个信息集上都是最优的。

1、子博弈

粗略讲,子博弈是原博弈的一部分,本身可以作为一个独立的博弈分析。

定义:

一个扩展式博弈的子博弈G由一个决策结x和所有的该决策结的后续结T(x)(含终点结)组成,其应满足:

={x};

②对于所有的x′∈T(x),如果x′′∈h(x′)那么x′′∈T(x)。①x是一个单结信息集,即h(x)

其意思是:

条件①是说子博弈必须从一个单结信息集开始。这意味着当且仅当决策者在原博弈中确切知道博弈进入一个特定决策结时,该决策结才能作为一个子博弈的初始结,如果一个信息集含有两个以上的决策结,则没有一个决策结可以作为子博弈的初始结。

显然,一个完美信息博弈的每个决策结都开始一个子博弈,即每个决策结和它的后续结构成一个子博弈。

条件②是说子博弈信息集和支付向量都直接继承自原博弈。就是说,当且当x′和x′′在原博弈中属于同一信息集时,他们在子博弈才属于同一信息集,子博弈支付函数只是原博弈支付函数留存在子博弈的部分。

其实条件①和②意味着子博弈不能切割原博弈的信息集。实际上这样规定的目的是保证子博弈能够对应于原博弈中可能出现的情况。如果不满足这两个条件,参与人在原博弈中不知道的信息在子博弈中就变成知道的信息,从子博弈中得到的结论对原博弈就没有意义。

习惯上,任何博弈本身称为自身的一个子博弈。图中含有3个子博弈。

2.子博弈精炼纳什均衡

(1)定义:

****(s=s,L,s,L,s扩展式博弈的战略组合1in)

是一个子博弈精炼纳什均衡,如果

①它是原博弈的纳什均衡;

②它是在每一个子博弈上给出的纳什均衡。

简单而言,一个战略组合是子博弈精炼纳什均衡,当且仅当它在每个子博弈(包括原博弈)上都构成一个纳什均衡。如果整个博弈是唯一的子博弈,那么纳什均衡与子博弈精炼纳什均衡相同。如果有其他子博弈存在,有些纳什均衡可能不构成子博弈精炼纳什均衡。

混合战略(行为战略)子博弈精炼纳什均衡可以类似的定义。

(2)“在每一个子博弈上给出纳什均衡”的意义可以这样理解。

①若一个博弈有n个子博弈,则一个特定的纳什均衡决定了原博弈树上唯一路径,称为均衡路径,博弈树上其他路径称为非均衡路径。

上例中,A不开发,x′,B开发,得出支付(0,1)是纳什均衡(不开发,{开发,开发})的均衡路径,其他路径均为非均衡路径。

所以纳什均衡只要求均衡战略在均衡路径的决策结上是最优的,这句话有点同义反复。

②在每一个子博弈上给出纳什均衡,意味着构成子博弈精炼纳什均衡的战略不仅在均衡路径的决策结上是最优的,而且在非均衡路径的决策结上也是最优

的,这是纳什均衡与子博弈纳什均衡的实质区别。

③其最主要想表达这样一个思想,战略是参与人行动规则的完备描述,它要告诉参与人在每一种情况下可预见的情况,即在每一个决策结上选择什么样的行动,即使这种情况没有发生,甚至参与人并不预期它会发生。

因此,只有当一个战略规定的行动规则在所有情况下都是最优时,它才是合理的可置信的战略。

子博弈精炼纳什均衡是要剔除只在特定情况下合理的,而在其他情况下并不合理的行动规则。

实际上博弈论常用序贯理性,不论过去发生了什么,参与人应该在博弈的每一个时点上最优化自己的决策(就是动态规划最优化原理)。

子博弈要求参与人是序贯理性的。

3、子博弈划分:

仍以前例,其有3个子博弈,除了自身以外,还有始于x和x′的两个子博弈。参阅图11—6:

这个博弈有3个纳什均衡:

①(不开发;(开发,开发))

②(开发;(不开发,开发))

③(开发;(不开发,不开发))。

它们是否都满足子博弈精炼纳什均衡呢?

(1)子博弈Ⅰ中,B的最优选择是不开发;子博弈Ⅱ中B的最优选择是开发。

(2)对于纳什均衡①(不开发;(开发,开发))而言,在子博弈Ⅱ上构成纳什均衡,但在子博弈Ⅰ中没有构成纳什均衡,所以①不是一个子博弈精炼纳什均衡。

(3)对于纳什均衡③(开发;(不开发,不开发))而言,在子博弈Ⅰ上构成纳什均衡,但在子博弈Ⅱ中没有构成纳什均衡,所以③不是一个子博弈精炼纳什均衡。

(4)只有纳什均衡②(开发;(不开发,开发))在子博弈Ⅰ和子博弈Ⅱ中同时构成纳什均衡。所以②是该博弈的子博弈精炼纳什均衡,B的战略(不开发,开发)是唯一的子博弈精炼纳什均衡解。

三、用逆向归纳法求解子博弈精炼纳什均衡

1.求解步骤:

步骤1.

从博弈最后一个决策结开始,参与人确定一个最优选择,这个最优选择就是该决策结开始的子博弈纳什均衡,如果该决策结上的最优行动多于一个,那么允许参与人选择其中任何一个,如果最后一个决策者有多个决策结,那么每一个决策结开始的子博弈都有一个纳什均衡。

步骤2.

回到倒数第二个决策结,即最后决策结上的直接前列结,找出倒数第二个决策者的最优选择与第一个决策者的最优选择共同构成一个子博弈的纳什均衡,这样一直反复工作到初始结。

对于有限完美信息博弈而言,逆向归纳法是求解子博弈精炼纳什均衡的最简单方法,因为有限完美信息博弈的每个决策结都是一个单独的信息集,每个决

策结都开始一个子博弈。

2.形式化讨论:

假定两个阶段的博弈,第一阶段参与人1行动,

第二阶段参与人2行动,且2行动前观测到1的选择。A1是参与人1的行动空间,a1∈A1;A2是参与人2的行动空间,a2∈A2。

(1)第二阶段参与人2面临的问题是

*maxu2(a1,a2),参与人2的最优选择是a2,由于a2∈A2

*其依赖于1的选择a1,所以a2=R2(a1)代表最优

解,即2的反应函数。

(2)由于参与人1应预测到参与人2在博弈的第

*二阶段按a2=R2(a1)的规则行动,所以参与人1的

a1∈A1第一阶段面临的问题maxu1(a1,R2(a1)),令上述

*问题的最优解为a1。

(3)这个博弈的子博弈精炼纳什均衡为(*a1,R2(a1)均衡结果为)(**a1,R2(a1)。)

(

*a2**a1,R2(a1))是一个精炼均衡,因为=R2(a1)在博弈第二阶段是最优的,其他都不满

足精炼均衡的要求。

3.例子

可以得到求解这个子博弈精炼纳什均衡的过程如

下:

(1)在第二阶段,B的最优行动规则是(不开发,开发),即如果A在第一阶段选择了开发,则B在第二阶段选择不开发;如果A在第一阶段选择了不开发,B在第二阶段选择开发。

(2)在第一阶段,因为A在第一阶段预见到了B在第二阶段会按上述规则行动,所以A的最优选择就是开发。

所以用逆向归纳法得到的精炼均衡是(开发;(不开发,开发))。

分析表明,用逆向归纳法求解子博弈精炼纳什均衡的过程实质上是重复剔除劣战略在扩展式博弈中的

扩展。从最后一个决策节开始,依次剔除每个子博弈的劣战略,最终生存下来的就是精炼纳什均衡。

另外,根据定义逆向归纳法只适用于完全信息博弈。

11.4重复博弈和无名氏定理

一、背景介绍

1.前面谈到的扩展式动态博弈有一个特征,这就是参与人在前一个阶段的行动选择决定以后的子博弈结构。

因此从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一次(比如在房地产开放博弈的例子中,开发商A选择“开发”后的子博弈就不同于选择“不开发”后的子博弈,在开发商B选择之后,博弈结束),被称为序贯博弈(sequentialgames)。

但是博弈中有一种同样结构可以重复的情况,我们称为重复博弈(同样结构的博弈重复多次),其中每次博弈称为阶段博弈。例如囚徒困境中,囚徒可能重复犯罪被逮捕,从而重复前一次的博弈决策。

2.重复博弈的特征(3个基本特征)

(1)阶段性博弈之间没有物质上的联系,即前一阶段的博弈不改变后一阶段博弈的结构,对比之下,序贯博弈涉及到物质上的联系。

★(2)所有参与人都观测到G过去的历史,即在下一次阶段博弈时,大家都知道上一阶段博弈的决策情况。比如,在每一个新阶段博弈中,两个囚徒都知道同伙在过去的每次博弈中选择了抵赖还是坦白。

(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。

另外每个阶段博弈中参与人可能同时行动(比如囚徒困境),也可能不同时行动,所以不同时行动的极端博弈本身就是一个动态博弈。

重复博弈可以是完美信息博弈,也可以是不完美信息博弈。

由于存在重复博弈的第二个性质,即参与人的过去的历史是可观测到的,所以一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史(比如,如果你这次选择了坦白,那么我下次将选择坦白,如果你这次选择抵赖,我下次将选择抵赖),因此参与人在重复博弈中的战略空间远远大于和复杂于每一个阶段的博弈中的战略空间,比如囚徒困境博弈只重复5次,每个囚徒的纯战略数量大于20亿。

一个战略是一个完备的相机决策行动规则,它必须说明在每一种可能的状态下参与人的行动选择,即使参与人并不期望这种状态真的会出现。这一点意味着重复博弈可能带来一些额外的均衡结果,这些均衡结果在一次博弈中是不会出现的,这正是重复博弈的意义所在。

3.重复博弈的影响因素

(1)博弈的次数

来自短期——长期利益之间的权衡。

当博弈进行一次时,参与人只注重眼前利益;而博弈进行多次时,参与人则更加着眼于长期利益,甚至牺牲短期收益。这是重复博弈分析给出的一个强有力的结果,它为现实生活中许多合作行为和社会规范提供了解释。

(2)信息的完备性

当一个参与人的支付函数特征不为其他参与人所知时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。

这一点似乎可以用来解释为什么那些本质上并不好的人在相当长时期内干好事的现象。

二、有限次重复博弈

1.有限次重复博弈存在性定理:

令G是阶段博弈,G(T)是重复T次的重复博弈(T

上述结论中唯一的纳什均衡是关键。

定理表明,只要博弈的重复次数是有限的,重复本身并不会改变囚徒困境的均衡结果。

三、无限次重复博弈

无限次重复博弈存在着不同于有限次重复博弈的子博弈精炼均衡。

可以证明,囚徒困境中,如果参与人有足够的耐心,(抵赖,抵赖)是一个子博弈精炼纳什均衡。

下面给出囚徒困境的支付矩阵,并以此为例展开分析。

1.冷酷战略(grimstrategies)

所谓冷酷战略又称为触发战略。

意思是说任何参与人的一次性不合作行动,将触发永远的不合作。

在囚徒困境博弈中

(1)开始选择抵赖;

(2)选择抵赖一直到另一方选择了坦白,然而永远选择坦白。

就是一个冷酷战略。

2.冷酷战略是纳什均衡

其分析逻辑是这样的:

(1)囚徒j选择冷酷战略,冷酷战略是不是囚徒i的最优战略呢?(由于博弈无最后阶段,所以不能采用逆向归纳法求解)

(2)令δ为贴现因子,假定两个人的贴现因子相同;

(3)若i在博弈的某一阶段首先选择了坦白,在该阶段ui=0,而不是-1,因此i的当期净收益1;

(4)j发现i坦白后,将触发j的“永远坦白”的战略选择,这实际上是对i的惩罚,即对其机会主义行为的代价。

(5)i在随后的每一阶段的支付都是-8,因为i自己也选择坦白;

(6)如果满足下列条件,给定j没有选择坦白,i将不会选择坦白。

0+δ(−8)+δ(−8)+L

≤−1+δ(−1)+δ(−1)+L

8δ1或者−≤−1−δ1−δ

*解上述条件得到δ≥1/8。就是说若贴现率

δ≥1/8在给定j坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。

(7)假定j首先选择坦白,那么i是否有积极性坚持冷酷战略以惩罚j的不合作行为呢?给定j坚持冷酷战略,j一旦坦白就将永远坦白。

(8)i若也选冷酷战略坦白,i的收益为-8,若i选择抵赖,收益为-10,因此无论δ为多少,i都有积22

极性坚持坦白。

(9)类似地,给定j坚持冷酷战略,即使i自己首先选择坦白,坚持坦白,惩罚自己也是最优的。

这意味着,在冷酷战略下,参与人没有改正错误的机会,所以这个战略确实挺冷酷的,但冷酷的结果是双方都没有背叛对方的积极性,从而使友善的。

这样,我们就证明了冷酷战略是一个纳什均衡。

3.无限重复博弈的子博弈精炼纳什均衡

(1)冷酷战略纳什均衡下,子博弈可以划分为两类:

①没有任何参与人首先坦白,冷酷战略构成子博弈纳什均衡。

②至少一个参与人首先坦白,冷酷战略参与人只是重复单阶段博弈的纳什均衡,他自然也是整个子博弈的纳什均衡。

(2)按上例,如果δ≥1/8,即参与人有足够的耐心,冷酷战略是无限次囚徒困境博弈的子博弈精炼纳什均衡,帕累托最优(抵赖,抵赖)是每一个阶段的均衡结果,囚徒走出了一次博弈时的困境。

(3)所以结论是:

若重复博弈无穷次,且每个人有足够的耐心,任

何短期的机会主义行为的所得都是微不足道的。参与人有积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚对方的机会主义行为。

4.多重博弈子博弈精炼纳什均衡的多重性(企业合谋)

以前面讨论过的古诺模型为例进行分析。

(1)古诺a−c==3

2(a−c)ee均衡利润π1=π2=9

a−cM垄断产量为q=2

2(a−c)M垄断利润是π=4e均衡产量是q1eq2

这是某一阶段博弈的纳什均衡。

(2)若博弈重复无限次,某形式的合谋就可能作为均衡结果出现。

q因为若i和j两个企业合谋勾结,则q=2iM

q一直持续,直到j采用非合作选择生产q≠,2

e则i企业将采用冷酷战略q,并一直继续下去选择jM

qe。

(3)若i

2企业坚持合作,其利润为π(a−c)=28Mq,如果当q=2时,企业i选择短jM

3(a−c)期最优产量qi=,当期利润为8

229(a−c)(a−c)dπi=>,648

但随后阶段利润流量为(a−c)(a−c)=

所以,只要存在下列条件,i企业就没有偏离合作均衡eπi22的积极性。其条件为:

2(a−c)2(a−c)2(a−c)2+δ+δ+L≥888

2229(a−c)(a−c)2(a−c)+δ+δ+L6499

解上述条件得到δ

(4)若有*≥9/17,实际上δ≥9/17合谋个企业,合谋均衡要求

−1就是一个精炼均衡结果。n

2δ≥(1+4n(n+1)),当n→∞时,δ→1,即企

业越多,合谋就越困难。

直观上来说,企业数量越多,每个企业一次性机会主义不合作行为中的净收益相对于长远利益的损失的比率越大,因此机会主义行为的诱因就会越大。

该结论与现实观测是比较吻合的。可用来解释为什么小团体的合作靠非正式的规则就可以维持,而大团体就必须依赖于正式的规则和合约。比如,在囚徒困境中,当干坏事的合伙人越多,事情会越容易败露。

(5)事实上,合谋是精炼纳什均衡,而总是选择古诺产量也是精炼纳什均衡,更为严重的,任何介于古诺产量和垄断产量之间的所有产量选择qeq∈[,qi]都是冷酷战略精炼均衡的一个特定结2

果。

例如,n=2时,设参与人选择如下冷酷战略:M

qe①开始生产q∈[,qi];2

**②继续生产q直到有任何一个企业生产qj≠q,*M

然后生产

∗qei;*令π为生产q时的利润,π为另一企业生产qd*而i企业生产短期最优产量时的利润。那么如果下列条件满足,企业i就没有积极性偏离q:*1δ*deπ≥π+πi1−δ1−δ

9−5δ*(a−c)。就是说满足上述条件解得:q≥3(9−δ)

Mq*e的q∈[,qi]都是一个特定的子博弈精炼纳什2

Mq*均衡结果。特别地,当δ→9/17时,q→,2

**eδ→0时,q→qi。

四、无名氏定理

无名氏定理是20世纪50年代大家共知,但无人

发表,1971年由弗里德曼将这个定理扩展到子博弈精炼均衡。

1.定理:

令G为一个n人阶段博弈,G(∞,δ)为以G为阶段博弈的无限次重复博弈,a是G的一个纳什均衡(纯战略或混合战略),e=(e1,e2,L,en)是a决定的支付向量,v=(v1,v2,L,vn)是一个任意可行的支付向量,V是可行支付向量集合,那么,对于任何满足vi**>ei的v∈V(∀i),存在一个贴现因子**δδ,

v=(v1,v2,L,vn)是一个特定的子博弈精炼纳什均

2.解释

在无限次重复博弈中,如参与人有足够的耐衡结果。心,即δ足够大,那么任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精炼均衡得到。关于纳什均衡解a,需要说明:

(1)a可以是混合战略均衡,也可以是纯战略均衡;

(2)a决定的支付向量e=(e1,e2,L,en)是达到任何精炼均衡的结果v的惩罚点,又称纳什威胁点。***

在囚徒困境博弈中,a是(坦白,坦白),*

e=(−8,−8)

q=q=q12,在重复寡头博弈中,ea*是,e=ee(π1,π2)。正是由于害怕触发阶段博弈纳什均衡,参与人才有积极性保持合作。

3.可行支付集合V

(1)重复博弈的支付函数为平均支付。前面曾用未来支付的贴现值之和代表支付函数,为方便起见可采用贴现值的平均值代表支付函数。若每个阶段支付均为π,则π是平均支付值。令贴现因子为δ,那么无穷序列π,πL的贴现值之和为π

列π1,π2L的贴现值之和为x/(1−δ),无穷序∞=∑δt=1t−1πt,要使π成为π1,π2L的平均支付,要求

解之可以得到∞t−1π=∑δπt1−δt=1

∞,π=(1−δ)∑δt−1πt。

t=1

实际上是平均支付是贴现值之和的标准化,标准化因子为1−δ,使用平均支付的优点是可以和阶段博弈的支付直接比较,所以无名氏定理中的支付应为平均

支付。

=(v1,v2,L,vn)称为一

个可行支付向量,若v是阶段性博弈G的纯战略支付的凸组合,即为加权平均值(线性组合)。所有可行支付向量v

可以构成支付集合V。(2)可行支付集合V。v

图11—7是囚徒困境一例的支付集合,纳什威胁e=(−8,−8)。由无名氏定理可知,从e=(−8,−8)点向坐标轴作垂线所围成的可行支付集合V中的任何点,都可以构成一个子博弈精炼纳什均点为衡结果。

4.保留支付和理性支付

(1)保留支付定义。保留支付是指其他参与人试图给参与人i最大惩罚时参与人i能保证自己得到的最大支付,所以又称为参与人的最小最大支付。记为:

i=min(maxui(ai,a−i))a−iai

在无名氏定理中,其他参与人惩罚一个不合作者的办法是转向阶段博弈纳什均衡a,但纳什均衡支付并不是博弈中一个参与人会受到的最大惩罚,最大惩罚是保留支付,保留支付不会大于纳什均衡支付,*i≤ei,否则a*不是参与人i的最优选择,这样就与纳什均衡矛盾。在囚徒困境中,i总可以保证自己得到-8,因而保留支付等于纳什均衡支付。

(2)大于保留支付的支付为个人理性支付。这个概念的意思是指,如果要一个参与人在无限次重复博弈中有任何兴趣合作,他从合作中得到的支付不应小于保留支付,=(v,vi≥i)为个人理性支付集合,Λ=V∩V为个人理性可行支付集合,V和Λ不一定相同,Λ是V的一个子集。

(3)在纳什均衡支付严格大于保留支付的博弈中,Λ中的其他支付向量是否可以作为精炼均衡结果出现?弗登博格和马斯肯给出了肯定的回答(FudenbergandMaskin,1986)。

证明:

e=(e1,e2,L,en)可用

=(1,2,L,n)代替,即若δ足够接近于1,所无名氏定理中,

有v∈Λ,都是一个特定的子博弈精炼纳什均衡结果,即使vi

例如古诺博弈中,δ

现,若δ≥9/17时垄断利润才能出=1/2

M13(a−c)qa−cq1=q2=>=。5124

2最大均衡利润:π1=π2=0.121(a−c)

2=0.125(a−c)2

但是上述结论的前提是对不合作行为惩罚是以阶段博弈纳什均衡支付为限的。

5、“可信惩罚”战略。

阿伯罗(Abreu,1986)提出冷酷战略并不保证最大合作的战略,能够使不合作者得到最低可能支付的

可信惩罚才是最严厉的保证合作的战略。


相关内容

  • 企业利益相关者之间的合作博弈与均衡
  • 摘要:企业不同的利益相关者之间存在合作博弈.企业利益相关者在反复的讨价还价博弈过程中逐步达到利益均衡,且博弈结果决定不同利益相关者对企业所有权的享有份额.本文在对利益相关者进行合理界定的基础上,运用合作博弈数学模型,求证利益相关者博弈的子博弈精炼纳什均衡解的唯一性. 关键词:合作博弈:利益均衡:博弈 ...

  • 12第十二章贝叶斯纳什均衡及其精炼
  • 第十二章贝叶斯纳什均衡及其精炼前两章讨论的是完全信息条件下的博弈,给出了博弈的基本分析框架. 本章将讨论不完全信息下的博弈行为,包括不完全信息静态博弈和不完全信息动态博弈. 12.1不完全信息博弈与贝叶斯纳什均衡 一.不完全信息博弈 完全信息博弈指博弈中的参与人对所有其他参与人的支付(偏好)函数有完 ...

  • 博弈论读后感
  • 博弈论读后感 本学期我通过为期八周的课堂学习已经私下通过阅读中国人民大学出版的王则柯.李杰编著的<博弈论教程>一书,收获颇多.此书一共分为九章,通过自己对整本书的阅读以及结合老师上课的详细解说,可以认为博弈大致有以下两种分类:按照博弈各方是否同时决策可以分为:同时决策博弈(静态博弈).序 ...

  • 博弈论(整理过名词解释和简答)
  • 名词解释: 1.博弈:一些个人.团体或其他组织,在一定的规则约束下,依据所掌握的信息,同时或者先后,一次或者多次从允许选择的行为或战略进行选择并加以实施,并从中各自取得相应结果或收益的过程. 2.囚徒困境:从博弈中的两个利益主体出发选择行为,结果是既没有实现两人总体的最大利益,也没有真正实现自身的个 ...

  • 高一语文习题一附答案
  • 高一语文习题一附答案 班级 一.语言文字运用(共24分,其中选择题每小题3分): 1.下列词语中加点的字,注音全都正确的一项是:( ) A .档(d àng )次 皴(c ūn )裂 乞骸(h ái )骨 血脉贲(p ēn )张 B .忤(w ǔ)逆 挫(cu ò)折 拗(ǎo )不过 乍(zh à ...

  • 在生活中的博弈论
  • "博弈论"原本是数学的一个分支,但由于它较好地解决了对竞争等问题的可操作性分析,成为经济学中激荡人心的一个研究领域.可以说,"博弈论"已经改变了经济学的传统轮廓线.从对"博弈论"简要.通俗的介绍中可以发现,我们身边充满了博弈,或者说,我们身 ...

  • 博弈论的分类
  • 须要求博弈方互相认识彼此的决策行为,即每个参与者都能预见其他参与者的均衡策略.当一个博弈中的参与者达到纳什均衡状态时,任何一个参与者都不能独自的改变本身的策略行为以增大自身的收益而不影响其他参与者的策略行为.因此,纳什均衡表示的是博弈的稳态性,一旦达到纳什均衡状态,表明该博弈各个参与者之间达到均衡状 ...

  • 博弈论复习题及答案
  • 博 弈 论 判断题(每小题1分,共15分) 囚徒困境说明个人的理性选择不一定是集体的理性选择.(√ ) 子博弈精炼纳什均衡不是一个纳什均衡.(× ) 若一个博弈出现了皆大欢喜的结局,说明该博弈是一个合作的正和博弈.( ) 博弈中知道越多的一方越有利.( ×) 纳什均衡一定是上策均衡. (× ) 上策 ...

  • 博弈论的应用2013
  • 北京邮电大学 本科选修课程 <信息经济学> 高丛 [email protected] 新浪微博:一花一世界economics 博弈论有助于分析如下问题:  合作问题?!  竞争问题?!  共存问题?!  承诺问题?!  博弈论用理论深入分析  以搞清楚在各 ...