评审团悖论
大多数“年度最佳”一类的奖项,不论是评选书、车、球员、还是雇员,都是由一组评审而不是一个人来打分的。比如,2018年的英国曼布克小说奖就有5位评审,而英国年度汽车大奖有27位评审。英文中有句俗语:“两个脑袋总比一个强。”这么说来,5个脑袋或者27个脑袋肯定更强,肯定能评出一个让大家都信服的排名。我们只需要找一组专家,让他们每个人按照自己的偏好给候选人排名,并把票投给他们心仪的那个,那么获得最多票数的候选人就是大奖得主。遗憾的是,孔多塞侯爵(Marquis de Condorcet,18世纪法国哲学家、数学家)早就指出来,这种投票方法在一些情况下会导致一个非常荒诞的结果。
孔多塞出生于1743年,在那个年代,他是一个观念十分先进的人。他支持女性拥有选举权,谴责奴隶制度,捍卫人权,并且公开反对死刑。在法国大革命期间,他表现得十分活跃,最终得罪了当局,在躲避了一段时间后被捕。两天后,他在狱中离奇死亡。但是,他为人类留下了珍贵的遗产。孔多塞几乎是最早将数学应用在选举制度分析的人。1785年,他写下了一篇文章,阐述了一种被当代人称为“孔多塞悖论”的理论。
假设一个评审团有三名评委——派克、昆兰、和罗杰斯,他们要评出“年度最胡言乱语奖”。这个大奖会颁给在过去的一年中发表过最令人费解言论的名人。[当然,在现实中并没有这个奖项。不过英国简明英语运动有一个“不知所云奖”(Foot in Mouth Award),是颁给言辞最令人困惑的公众人物的。最近的得奖者包括雅各布·里斯-莫格[1](Jacob Rees-Mogg),罗素·布兰德[2](Russell Brand),埃隆·马斯克[3](Elon Musk)和米特·罗姆尼[4](Mitt Romney)。]我们的“年度最胡言乱语奖”,最终有三人入围候选名单,不过为了不让人太过难堪,我们姑且叫他们A、B和C。三名评审分别给三个候选人的排名如下(例如派克认为名人A是最佳人选,跟着是B,其次是C):
派克: A B C
昆兰: B C A
罗杰斯: C A B
为了简化决策过程,评审们同意对候选人进行两两对比。有两位评审相较B更喜欢A,所以A比B票数更高。有两位评审相较C更喜欢B,所以B比C票数更高。到这一步,我们似乎已经有了结果——A胜了B,B胜了C。可是就当我们准备宣布名人A获得大奖的时候,有人发现了一个问题:如果我们将A和C进行比较,票数更高的将是C。孔多塞证明了这种投票方式会让我们进入一个无止境的偏好循环,也就是出现了关系的“不可传递性”。大部分评审觉得A比B好,大部分评审也觉得B比C好,可是,怪诞的是,大部分评审同时还觉得C比A好。更糟糕的是,聪明的评审还可以利用这种投票机制,以确保他们最不喜欢的候选人必然会落选。他们会故意投票给并非自己真正支持的候选人,来达到上述目的。这种方式也被称为策略性投票或战术投票。
时间过去了150年,就在二战之后,美国经济学家肯尼斯·阿罗(Kenneth Arrow)在自己的“不可能定理”中对孔多塞的理论进行了延伸,这个定理也让他获得了1972年的诺贝尔经济学奖。阿罗教授证明了,当有两个以上候选人参加排名的时候,没有任何一个投票机制能保证同时满足下面这些合理的条件:避免出现不可传递性;没有独裁者在操控结果;以及如果每位评审都认为某候选人比另一位候选人好,那么投票结果一定会体现这一偏好。在二战后大家都期待建立的那个美丽新世界中,阿罗的这个发现令人沮丧——设计出完美的、人人都满意的体系看似只是一个白日梦。它还说明了,尽管个体可以有一致的偏好,但是群体不能:当一个评审团中的一部分人喜欢某款车,而其他人喜欢另一款的时候,我们不能说整个评审团都更喜欢某一款车。政客们经常这样说:“选民们告诉我们他们想要……”但是这可能吗?
那么,既然投票无法确保排名的准确性,或许我们就应该直接让一群专家围坐一桌,讨论研究出谁或者什么为某某“年度最佳大奖”的得主。可是,在一群人共同商议事情的时候,同样会出现不妙的事。立场坚定和能说会道的人可以主导会议进程,进而左右群体的最终结论。更糟的是,在那种顺从度高且没人想要推翻规则的集体中,成员甚至可能会忽略现实,陷入一种叫团体迷思(或集体错觉)的困境。在这样的团体中,每个成员都竭力去支持领导所提出的方针,哪怕这么做显然是不明智、不正确甚至是轻率鲁莽的。而那些持反对意见的人则会保持沉默,并且开始质疑起自己的看法来。以至于最终,这个团体能够充满自信地做出一个在外界看来近乎疯狂的决策。
至于“顺从”是如何惑乱团体决策的?还得看美国心理学家所罗门·阿希(Solomon Asch)的从众实验。实验证实了,当团体中的一些人力捧一个明显错误的答案时,其他人甚至会质疑起自己眼前的事实。
在阿希的实验中,有一组参与者被要求判断出面前卡片上画着的竖线当中,哪一对儿竖线的长度相同。这本是一个很简单的问题——其他线的长度都相差很多。但是每组参与者中只有一位是真正的被测试者,其余的组员都是阿希找的“帮手”,他们被要求做出错误的回答——声称长度本不相等的两条竖线是相等的。出人意料的是,75%的被测试者都至少有一次在作答时,刻意选择了与帮手们相同的答案。后来,有些人回忆说,自己当时很担心固执己见会出糗。还有些人坚信,既然其他人的答案都一样,那他们肯定就是对的。
如果群体可以如此这般扭曲人们的判断,那我们就应该对那些媒体大肆宣传的“年度最佳大奖”更加谨慎。当我们想要给什么东西排名的时候,也许我们应该摒弃人为的判断。相反,我们可以使用客观数据,再用一个什么公式,把这些数据转化成精确的、看似很科学的分值,即创立一个排行榜。