大量数据表明,将许多人的答案取平均值通常比任何个人的意见,甚至是专家的意见都要好。然而,群体智慧远非万无一失——在需要专业知识的情况下,即使群体中包含专家,他们也会被大多数人的无知所淹没。但今天发表在《自然》杂志上的一项研究,由麻省理工学院的行为经济学家德拉岑·普雷莱克领导,提出了一种新方法,即使在多数意见错误的情况下,也能从人群中提取正确的答案。
最常被引用的群体智慧现象的例子来自 1987 年的一项研究,研究人员要求 56 名学生估计一个罐子里有多少颗软糖豆。猜测的平均值 (871) 比除一个以外的所有个别猜测都更接近真实数字 (850)。然而,这种方法并非在所有情况下都有效。
先前旨在提高准确性的研究通常涉及获取置信度评分。更加重视置信度较高的答案可以提高准确性,但在某些情况下仍然失败,例如当使用故意误导的问题时。例如,这项新研究表明,当被问及费城是否是宾夕法尼亚州的首府时,大多数人错误地回答“是”,因为他们知道它是宾夕法尼亚州一个历史悠久的重要城市,即使正确的答案是哈里斯堡。置信度评分并不能解决这个问题,因为人们常常对错误的答案和正确的答案一样有信心。“从概念上讲,置信度缺失了一些东西,”普雷莱克说。“你希望人们表达他们的信息是否来自常识——这实际上是他们对自己拥有独特信息有多大的信心。”
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻工作 订阅。通过购买订阅,您正在帮助确保关于当今塑造我们世界的发现和想法的具有影响力的故事的未来。
该团队设计了一个巧妙而简单的解决方案,他们称之为“出乎意料的流行”方法。除了提供答案和置信度评分外,他们还要求参与者预测其他人会如何回应。他们表明,选择比预测更受欢迎的答案,其表现优于“最受欢迎”和“最自信”的方法。误导的多数人和正确的少数人都会预测所有人都会给出不正确的答案,因此少数人(但正确)的回答比预测的要多得多。“少数人可能会非常离谱,但在很多情况下,你都拥有知识等级,而拥有更多知识的人往往知道其他人不会分享他们的信息,”普雷莱克解释说。“在大多数情况下,专家知道非专家的想法。” 因此,在这种情况下,选择“出乎意料的流行”的回答会更准确。“这种方法的妙处在于,它让知识更丰富的少数人通过预测多数人会不同意他们的观点来揭示自己,”柏林马克斯普朗克人类发展研究所的决策研究员斯特凡·赫尔佐格说,他没有参与这项研究。
这项研究侧重于四种不同环境中的二元是非问题。第一个实验包括 50 个关于美国州首府的问题。第二个实验使用了 80 个对错常识问题,这些问题经过选择,既包括大多数人会正确回答的问题,也包括大多数人会回答错误的问题。第三个实验向皮肤科医生展示了 80 张皮肤病变图片,并要求他们预测自己对每张图片是良性还是恶性的信心,以及其他皮肤科医生判断的分布情况。最后一个实验要求一组艺术专家和一组没有上过艺术课的麻省理工学院学生来判断 90 幅 20 世纪艺术作品复制品的市场价值。给出了四个价值范围,并要求参与者估计预测价值超过 30,000 美元的人的百分比。
在所有情况下,新方法都比单独的多数或基于置信度的方法表现更好,将误差减少了 21% 到 35%。“这里有一个关键的想法,那就是询问人们他们认为有多少人会同意他们的观点,”加州大学欧文分校的认知科学家迈克尔·李说,他也未参与这项工作。“这似乎是一种聪明的做事方式,结果非常令人信服。” 在涉及皮肤科医生的实验中,虽然新方法表现最佳,但差异没有统计学意义,这很可能是因为所有参与者都是专家,从而减少了人群的知识范围。“我们想进入更有趣的领域,并让挑战变得艰难,”普雷莱克指出。
“群体智慧”通常被理解为一种统计现象而非心理现象,通常通过类比涉及噪声信号的物理系统来解释。答案因不相关的(统计上独立的)误差而偏离“信号”(真相),因此在平均时会相互抵消,因此平均值接近准确值。一些研究人员甚至发现,如果允许参与者沟通,就会降低群体表现,大概是因为错误不再不相关。
但是,这种比喻忽略了一个事实,即“系统”是由人组成的。“另一种模型是,发生的事情不是噪声问题,而是存在一些广为人知的证据,还有一些集中在小群体中的证据——这从物理科学概念转向了文化概念,”普雷莱克说。“群体方法中的许多统计数据都将人视为物理粒子,但我们要求群体反思他们所知道的。这不是粒子可以做的事情。” 李的团队将群体智慧研究视为一个认知建模问题。“数据是由人产生的,并且对个体差异和专业知识等因素非常敏感,而这些因素从根本上来说都是心理学概念,”李说。“接下来我想看到的是,您是否可以通过理解人们如何产生这些类型的判断来进一步改进这一点?”
该研究还包括将该方法扩展到多项选择情况的理论分析,但它是否在更复杂的环境中起作用,例如估计或排序,仍然是一个悬而未决的问题。“这种[方法]可能适用于各种人类判断,”李说。“现在有很多工作要做,看看它有多强大和通用。”
这项工作可能具有直接的实际应用。赫尔佐格参与了一项去年发表的研究,该研究使用“集体智慧”来改善乳腺癌和皮肤癌的诊断。“通过结合多位诊断师的意见,它可以应用于新兴的远程皮肤病学领域,”他说。“原则上,它可以应用于我们使用多数投票的任何地方,在这种情况下,不仅可以要求人们做出自己的决定,还可以要求他们认为有多少人会同意他们的观点。”
更长远的目标是能够对没有已知、明确答案的问题产生良好的估计。“真正的考验是诸如谁将赢得美国总统大选或体育比赛之类的问题;我很想看看它的表现如何。” 李说。“这是一个有趣的开放性问题,它们是根本不同还是只是更具挑战性。” 普雷莱克对此表示乐观:“一直以来的假设是,这些是两类不同的问题,但我们在两个领域中进行的推理非常相似,”他说。“策略是在您可以验证答案的问题上微调您的方法,然后做出信念的飞跃,并假设这是您在不可验证的问题上能做的最好的事情。”