7.2 旅行者困境与理性的意义

《信念共同体：法和经济学的新方法》7.2 旅行者困境与理性的意义,页面无弹窗的全文阅读!

在旅行者困境中，两名参与者本可得到100美元，而由于每个人都是自利的，想获得更多的一点点收益，由此导致他们的表现不佳，最终每人只能得到2美元。但这在现实中真的会发生吗？在纯粹的推理上也成立吗？这些问题至关重要，因为立法干预的程度和性质取决于我们如何回答这些问题。

在传统的法和经济学中，针对上述结果，我们会很快得出结论，需要第三方干预来改变参与者的激励，从而改变双方的行为。但是，如果我们发现人们自己能够并且确实解决了他们之间的一些问题，就必须以非常不同的方式来思考法律干预和惩罚。大量的实验和理论文献显示，博弈论的正式预测为何存在众多争议。例如，在“逆向归纳论证”、“重复剔除劣势策略”以及“可理性化”中，都将“理性假设”作为博弈双方的共同知识。也就是说，A知道B是理性的，B知道A是理性的；A知道（B知道A是理性的），B知道（A知道B是理性的）；以此类推，无休无止。我们可以试着反驳上述假设。

经验和实验文献对此的批评相当明确。它们表明，人们在实验室中参与旅行者困境博弈，或者在回答假设人们会如何进行博弈的问卷调查时，很少有人会选择2。考虑第2章中给出的策略集，人们的选择倾向于集中在高数值附近，通常在95 ~100。

在此，我不想投身于这场大规模的经验或理论辩论，而是想把重点放在一些具有重要意义的问题上。这些问题超越了博弈本身，而与经济和社会的议题有关。首先，旅行者困境博弈，就像囚徒困境博弈一样，明确地提醒我们，市场这只看不见的手可以将个人自利行为引导至社会最优结果的说法，并不总是正确。如果经济博弈从一个没有外部性的完全竞争状态转变为另一种结构，那么就像在囚徒困境博弈和旅行者困境博弈中那样，个人理性将使我们陷入糟糕的结果。的确有理由认为，由于技术进步，市场结构正在发生变化，因此需要一种明智的集体干预方式，以确保我们不会因为每个人都试图增进自身的利益而最终覆灭。随着技术进步改变了我们的世界和市场，我们可能需要考虑不同类型的法律和政府干预措施，以使经济有效运行。

其次，鉴于上面提到的大量经验证据，个人的行为确实表现得与我们教科书上的假设不同。幸运的是我们已经认识到，个人的动机不仅仅是出于自身的利益。为此，我们可以采取两种不同的路线。第一种是假设每个参与者只对自己的收益感兴趣，但不是简单地试图将它最大化，我称之为“聚焦于收益的批评”。第二种是认识到参与者不仅对自己的收益感兴趣，还在意他人的收益、策略的名称、博弈的名称以及也许还有其他参与者是谁，我称之为“普遍的批评”。这些批评表明，如果让参与者自行决定，博弈的结果将与标准模型显示的不同，因此相应的干预措施也会有所不同。

有一些关于“聚焦于收益的批评”的有趣研究。例如，人们认识到，即使大家对自己的收益感兴趣，但也不仅仅是简单地最大化自身的收益，还包括减轻他们最终可能感到的后悔（Savage，1951）。这种特定的行为方式，即“后悔最小化”行为在哈尔彭和帕斯（Halpern and Pass，2012）的论文中被简洁地形式化了。其中的想法如下：首先考虑一个参与者的选择，例如你选2；然后再考虑对方的选择。此时你选2后感到的最大后悔值，就是你选2失去的相对收益。即如果对方选90，你将得到4；但如果你选89，你可以得到91。所以对于你选2而言，在对方选90的情况下，你的后悔值为91-4 = 87。当然，如果对方也选2，你的后悔值就是0，因为你不能通过偏离2获得更好的收益。但如果对方选100，很容易看出，你的后悔值将是97，以此类推。

换句话说，如果你选2，就会得到一个与对手每个选择相对应的后悔向量，而选2的“最大后悔值”是该向量中的最大数值。“后悔最小化”行为就需要你做出能够最小化“最大后悔值”的选择。

有趣的是，在旅行者困境博弈中，所有参与者的“后悔最小化”行为会产生一个清晰的结果，即每个参与者都会从96、97、98、99、100中任选一个数。因此，如果参与者都是“后悔最小化”者，那么博弈的均衡结果就是在集合{96，97，98，99，100}中的一对选择。此一结果令人更感兴趣的是，在贝克尔、卡特和内韦（Becker、Carter and Naeve，2005）的文章中，当博弈论学会的会员在被问到他们将会如何参与旅行者困境博弈时，最常见的答案是2、96、97、98、99和100。如果我们忽略2，认为2是那些为了证明自己是博弈论专家、能够发现纳什均衡的会员给出的答案，那么“后悔最小化”行为的结果与这一经验研究发现的巧合是值得注意的。

“后悔最小化”当然不是这里的最终结论，因为正如哈尔彭和帕斯（2012）意识到的，它可能会在其他博弈中导致一些不现实的结果。当然还有其他的方法，例如基于进化动态学方法或者利用遗传算法，在不知道博弈结构的条件下，根据最大化每位参与者收益的目标反复博弈。研究者尝试了这些方法，并对为什么理性参与者最终会以偏离纳什均衡结果的方式参与博弈，有了更多的洞见。在我看来，还有一条尚未得到探索但似乎值得探索的研究路径，它显示了囚徒困境博弈和旅行者困境博弈在概念上的一个重要区别。如果你站在一位博弈参与者的角度，并假设对手能完美地推理。此外，假设你们都认同“完全自利”而且这已成为你们的共同知识。现在你问自己，你会如何参与博弈？在囚徒困境博弈中，你显然会选占优策略B，从而达到纳什均衡。

我的预感是，在旅行者困境博弈中你不愿意选2（基于同样的理由，你的对手也不愿意），即纳什均衡策略给出的数字，而是会选一个较大的数字，可能是90多。换言之，即使我们排除了利他主义、公平和其他人类特性，要求你在旅行者困境博弈中做到绝对自利，你也不太可能采用纳什均衡策略。这是因为在这个博弈中，拒绝理性将是理性的。两位参与者都能看到这一点，他们将据此行为获得相应的收益。由此产生的科学问题在于这样的事实：“理性地拒绝理性”成了一个哲学上的难题，正如我们在第4章前向归纳法的例子中看到的。

上述想法显然有些道理。对我而言，这里的秘密在于：要认识到两位参与者都选择“大数”也是某种纳什均衡。在这种情况下，任何一位参与者不想再独自偏向“小数”，从而破坏均衡结果。然而事情的实质在于，大数和小数都是定义不明确的集合，而这种“定义不明确”对于此类分析至关重要。如果给出定义明确的集合，每位参与者就会试图选择比对手更小的数字，最终导致两人都选2的结果。然而，“定义不明确的集合”和“理性地拒绝理性”都是很难处理的概念。如何将它们形式化，我还没有答案。但我相信许多理性的悖论都根源于此，并将它作为一个开放的问题留给读者。

旅行者困境博弈表明，个人在参与这个博弈之前就向其他参与者显示其非理性，这反而符合他们的利益，因为理性是这个博弈中不幸的根源。这类似于我们在第4章讨论过的烧钱问题。焦点方法认为，被颁布的法律如同一些“纸上的墨迹”，但由于法律的颁布并不是一个无成本的过程，立法程序也有烧钱的一面，因此它也可以被视为一个信号，传递了个人（在这种情况下是法律制定者）在法律颁布后会如何行为的信息。同样，在旅行者困境博弈中，你烧钱的行为向其他参与者发出了一个信号，继续把传统的理性假设用在你身上将是错误的，这导致了一个更好的结果。所以，制定的法律也不仅仅是无成本的“纸上的墨迹”。

上述讨论开启了一个广阔的研究前景，拓展了法和经济学的焦点方法。在前面的例子中，理性的含义成为一个哲学上令人困扰的问题，值得就其本身展开进一步分析，同时也会丰富我们关于法律如何影响社会结果的看法。

例如，参见Goeree and Holt（2001），Gintis（2009），Velu、Iyer and Gair（2010），Arad and Rubinstein（2012），Manapat、Rand、Pawlowitsch and Nowak（2012），Capraro（2013），Morone、Morone and Germani（2014），以及Bavly（2017）。

参见Capra、Goeree、Gomez and Holt（1999），Becker、Carter and Naeve（2005），以及Rubinstein（2006）。在类似实验的设计中，收益额在180 ~300美元，惩罚和奖励则各为5美元。Rubinstein在Ben-Gurion、Tel Aviv、Technion、Tilburg、LSE、British Columbia、York（Canada）、Georgetown and Sabanci等大学举办讲座时，也向听众提出了这个问题。人们选择的平均数额略低于280美元，其中LSE（伦敦经济学院）最高（281美元）、Sabanci最少（263美元）。有少数人做出了180美元的纳什均衡选择，Rubinstein（2006，第875页）将他们称为“博弈论的受害者”。

此外，一些行为经济学和心理学的最新研究表明，人们还有其他方式处理后悔问题。其中之一是“故意的无知”，即不愿意去知道。Gigerenzer and Garcia-Retamero（2017）的研究表明，面对未来的负面事件，85%~90%的人更倾向于“故意的无知”，他们将此解释为一种处理后悔的方式。

参见Pace（2009），Manapat、Rand、Pawlowitsch and Nowak（2012）。

已有文献中与此最为接近的研究，是Arad and Rubinstein（2017）近期的论文。他们从经验观察出发，发现当个人必须从一组庞大而复杂的策略中做出选择时，并不会仔细考虑整个策略集，而是先以某种有意义的方式区分策略集，然而再考查所有这些被区分的策略集中的选项。让我跳过具体的细节，结果是这一分析导致了一种集值均衡，即MD均衡。在旅行者困境博弈中，参与者先在选择个位数、两位数和三位数的三种策略中加以考虑，对应的集合分别是S = {2，3，. . . ，9}，D = {10，11，. . . ，99}和T = {100}。可以看出，该博弈有两个MD均衡，即S和D。换句话说，两位参与者从集合{10，11，. . . ，99}中选择任一数字，即构成一个均衡。这里的一个问题是，如果允许参与者再进行第二轮思考，即他们选择了MD均衡后，如果试图剖析从MD均衡集中所选的特定策略，那么在一定的推理下，又会得出一个最低的整数值。这表明，继续推进分析的方法是把Arad and Rubinstein提出的类似思路与“定义不明确的集合”特性相结合。这样，我们可以决定选择一个“相当大的数字”。因为对什么是“相当大的”并没有共同的精确理解，所以在这个集合中进行逆向归纳时，无法得出一个最大值。然而，如何形式化上述想法，仍是一个有待解决的问题。