数字分析:为何特朗普的胜利让大型民意调查措手不及

不断变化的技术和反复无常的人类正在将调查的聚合从艺术推向科学

在数月的预测都指向希拉里·克林顿获胜之后,美国总统大选在周二晚上出现了一个令人眼花缭乱的意外转折,唐纳德·特朗普将入主椭圆形办公室。特朗普接连拿下多个摇摆州,让即使是最优秀的民意调查聚合机构也感到困惑。这些民意调查背后的想法很简单:多个民意调查的平均结果将比任何单独的调查都更准确。但是,正如选举结果所表明的那样,这种优雅的方法在实践中失效了。尽管各聚合机构对希拉里·克林顿的获胜几率存在一些差异(FiveThirtyEight的内特·西尔弗始终给出最保守的估计,而《赫芬顿邮报》普林斯顿选举联盟始终给出最高的胜算),但主要的民意调查机构都压倒性地预测她会获胜——而他们却大错特错。

造成这种情况的原因有两个:首先,许多最初的民意调查机构未能产生高质量的民意调查。其次,聚合机构正在使用不完善的统计模型来平均结果。在本轮选举中,大多数专家认为最大的责任在于第一个因素——民意调查本身。

罗格斯大学的政治科学家克利夫·祖金表示,选举民意调查正处于危机之中。随着越来越多的人使用手机而不是固定电话(后者使调查更容易),以及越来越少的人回应调查,民意调查的成本越来越高。因此,民意调查员正在不断变化的形势中工作:他们正在微调他们的工作,以联系到移动电话,转向在线调查,并使用统计工具来纠正偏差。但是,这些新方法的准确性在很大程度上未经检验,而且在本选举季中,可供聚合的高质量民意调查的数量也较少。“我们主导的范式已经崩溃,”祖金说。“聚合机构现在拥有的原始材料不如四年前和八年前那么好。” 因此,民意调查变得不那么科学。或者用祖金的话说:“这是一门基于艺术的科学。”


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将有助于确保有关当今世界中塑造我们的发现和想法的具有影响力的故事的未来。


但据祖金称,民意调查中最大的混淆因素是,受访者夸大了他们投票的可能性。他说,80% 的受访者表示他们肯定会投票,而之前的选举显示投票率约为 60%,这并不罕见。“因此,你需要弄清楚这 80% 的人中,哪些人真正会成为投票的 60% 的人,”祖金说。尽管民意调查员根据受访者对各种问题的回答构建了“可能投票的选民”量表,但研究并未表明哪些问题最适合此目的。“没有神奇的公式可以做到这一点,”祖金说。“所以你只能猜测。” 如果他们猜错了,其影响可能是巨大的——周二晚上发生的事情就是例证。尽管确切的数字需要时间来处理,但似乎越来越多人认为投票率可能影响了今年的民意调查。“我认为,当涉及到唐纳德·特朗普时,这里的解释可能是,民意调查员做了他们应该科学地做的事情,即根据上次的情况做出我们最好的预测,”密歇根大学传播学助理教授乔希·帕塞克说。“但实际情况是,这次投票的人与上次投票的人根本不同。……模型低估了受教育程度相对较低(通常投票较少)的白人共和党人的投票率。”

归根结底,每个民意调查都包含一个未知的偏差,无论是由于数据质量差还是低估的投票率造成的。因此,聚合机构尽最大努力利用他们手中的牌——通过构建统计模型来更好地分析手中的牌。尽管这些模型的复杂性各不相同,但最简单的一种是所谓的“民意调查中的民意调查”方法,该方法只是平均所有民意调查的结果,前提是它们各自的偏差至少会部分抵消。但是有些会留下永久的污渍。10 月,《纽约时报》发现伊利诺伊州一名 19 岁的男子正在将民意调查聚合机构推向特朗普。该男子接受了美国南加州大学多恩西弗分校/《洛杉矶时报》“破晓”民意调查的采访,其权重比权重最少的受访者高出 300 倍。因此,大多数聚合机构都将此民意调查从列表中删除或降低了其权重。事后来看,该民意调查现在被认为是最准确的,并将导致聚合机构重新审视他们用来确定哪些民意调查可靠的指标。

但是,即使聚合机构使用相同的初始民意调查,他们也可能不会预测相同的结果。《纽约时报》在 9 月份发表了一项研究,该研究涉及向四个不同的研究团队提供相同的原始数据,并要求他们预测选举结果。在仔细审查数据后,所有四个团队都得出了不同的结果——不仅是不同的获胜幅度,而且是不同的获胜者。“在构建这些模型时有很多选择,这在很多方面都是一门艺术,”密歇根大学调查方法项目负责人弗雷德里克·康拉德说。“一切都变得数学化,因为它是在模型中实现的。但不知何故,直觉被量化了。”

一旦原始数据被纳入模型,聚合机构要考虑的第二大变量就是统计模型本身。大多数聚合机构使用一种混合方法,将某些基本要素(如经济趋势或将领导权转移到另一个政党的广泛愿望)以及民意调查结果纳入其模型中。但是,各聚合机构在预测中应给予这些基本要素多少权重有所不同。帕塞克说,周二的选举有力地印证了这样一种观点,即这些基本要素实际上是主导因素。“虽然你可能认为这与候选人有关——他们说的话,他们相信的东西,”他解释道,“但最终,这些基本要素往往会占据主导地位。特朗普可能仅仅因为我们在过去八年里有一位民主党人住在白宫而被选为总统。”

因此,在本次选举中民意调查失败之后,有没有哪个大型聚合机构的表现明显好于其他机构?考虑到它们的所有州级估计都相似,因此很难说。但应该强调的是,FiveThirtyEight 在其对克林顿获胜的估计中更加谨慎。“这很准确,原因很可笑——不是因为他们真正了解发生了什么,而是因为他们认识到,这种大规模转变有可能以我们没有察觉到的方式改变结果,”帕塞克说。例如,FiveThirtyEight 和《赫芬顿邮报》之间的最大区别之一是他们对某些州会一起行动的信任程度。《赫芬顿邮报》不假设一个州的民意调查会强烈影响另一个州的民意调查,《赫芬顿邮报》高级民意调查编辑娜塔莉·杰克逊说。但 FiveThirtyEight 却这样做。“因此,这意味着我们整个地图被系统性错误摧毁的可能性要低得多,”杰克逊说。

尽管许多政治科学家对周二的结果感到惊讶,但他们并不认为现在是放弃民意调查的时候了。“我认为,如果说这次选举暗示了什么,那就是民意调查并非完全不可靠,”帕塞克说。大多数民意调查在预测各州的情况方面都是相当准确的——除了特朗普在上中西部地区的表现比预期好得多。“总的来说,我认为民意调查提供了一个很好的晴雨表,但似乎有一些系统性错误的来源让每个人都偏离了一点,”帕塞克说。为了更好地确定这些错误,将需要进行长时间的自我反省。“可以肯定地说,选举民意调查行业还有一些工作要做,”杰克逊说。“但我非常乐观地认为,我们将完成这项工作,并为此而发展成为一个更好、更强大的领域。” 这是一种在整个行业中引起共鸣的想法。“一旦我们看到谁做得好,谁做得不好,我们就会对哪些方法有效,哪些方法无效有更坚实的理解,”祖金说。“但现在我们只是在进行试验。对我们来说,这是一个狂野的西部。”

© . All rights reserved.