统计学在政治中仍然有用吗?

特朗普的提名似乎表明情况并非如此——但一篇新论文有助于驳斥这种观点

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,仅反映作者的观点,不一定反映《大众科学》的观点


Nate Silver,FiveThirtyEight 博客的创建者,在 2012 年凭借其自信且正确的预测——巴拉克·奥巴马将以比评论员预期的更大幅度获胜,尤其是他出奇的准确的各州预测——使统计学变得酷炫。

但在当前的总统选举周期中,他在早期评估中严重失误,认为唐纳德·特朗普赢得共和党提名的机会只有百分之二。我们在共和党大会的最后一晚看到了结果。

当然,概率本质上是关于不确定事件的,而小概率事件时有发生。这并不能证明最初对其概率的评估是错误的。但 Silver 对特朗普获胜概率的估计仍然显得非常离谱。 Silver 本人将他的失误归因于他未能在早期估计中使用统计模型。 基本上,他说他当时表现得像个评论员,但将主观概率附加到他的即兴估计中。


关于支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。 通过购买订阅,您将有助于确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


现在,新英格兰复杂系统研究所和麻省理工学院媒体实验室的 Yaneer Bar-Yam 和 Taeer Bar-Yam 发表了一篇关于百分之二事件的更全面和学术性的评估,他们得出的结论是,Silver 的解释基本上是正确的,但很肤浅。 尽管他拥有专业知识,但他还是陷入了非统计思维的经典陷阱之一:未能考虑到依赖性属性。

在计算特朗普的获胜几率时,Silver 假设了一系列六个障碍(他称之为“末日六阶段”),特朗普必须克服这些障碍才能获得提名。 例如,其中一个障碍是“更高的审查”,即选民开始关注候选人的优点和缺点的时刻; 另一个障碍是“终局”,即党内领导人可能会竭尽全力阻止他的提名。

Silver 为他幸存过每个阶段分配了 50% 的概率,然后将这些概率相乘:50% 乘以 50% 乘以 50%,依此类推——也就是 0.5 的 6 次方。 计算出的数字是 0.0156,略低于百分之二。

但 Silver 对六个阶段(不是七个,也不是四个)的选择完全是任意的。 即使它们是正确的阶段,他对概率的假设也是有缺陷的。 仅仅因为一个事件有两种可能的结果,并不一定意味着这两种结果各自有 50% 的概率(除非你正在做抛硬币之类的事情)。 最后,Silver 错误地假设这些阶段彼此独立。 在政治竞选中,在一个阶段的成功可以提高在下一阶段取得成功的几率,或者降低成功的几率。 在任何阶段取得成功的概率都取决于先前的结果。 例如,当竞选活动进入“终局”阶段时,党内领导人阻止特朗普提名的可能性已大大低于 50%。 Silver 没有进行统计建模,他只是在做粗略的估算。

大多数时候,Silver 实际上确实使用了统计模型,这些模型通常处理民意调查数据的聚合和加权——它们是选民意见的快照。 数据挖掘分析的作用在很大程度上被政治记者所不了解,因此可能不太受关注,但它为候选人提供了实际采取行动来影响选民意见的工具。 这些统计方法最早出现在 2004 年的克里竞选活动中。 在此之前,竞选活动完全从群体角度考虑目标受众:一条信息可能针对 30 岁以下的女性,另一条信息针对新移民,另一条信息针对农村白人,等等。

数据挖掘方法在政治领域的应用意味着信息传递可以针对个人——Irma Smith 可能会收到一条信息,Harold Jones 可能会收到另一条信息。 这些方法与商业、政府、军事、医疗和其他应用领域中存在时间稍长的同类技术是政治上的近亲。 营销人员使用它们来决定,例如,您最有可能点击哪个在线广告。 保险公司使用它们来猜测索赔是否具有欺诈性。 在政治领域,分析师使用这些技术来猜测关于您的两件事:您支持哪位候选人,以及您是否有可能投票。 通过这种方式,说服性信息传递和鼓励投票活动可以有针对性地在最有效的地方进行(并且可以避免危害!)。

现在您可能会认为,这几乎不需要统计数据:只需查找某人是否注册为民主党人或共和党人,以及他们投票的频率(这两者都是公开的)。 实际上,仅使用这两个变量就可以为您带来很大的预测能力,而且在非势均力敌的选举中,您可能不需要“微定向”带来的额外好处。

然而,在势均力敌的选举中,您可以从将众多变量纳入统计模型中获得的额外预测能力可能会产生重大影响。 除了投票行为外,顾问还会考虑消费者数据(例如报纸订阅)、人口统计信息以及有关选民居住社区的人口普查信息。 预测性统计模型的使用被广泛认为是奥巴马在 2008 年和 2012 年取得胜利的关键因素。

2016 年的情况如何? 特德·克鲁兹是最早和最全面地采用这些技术的候选人。 他在与特朗普的激烈竞争中失败了,特朗普似乎遵循了名人免费宣传的模式:无论报道是正面还是负面,只要他们正确地拼写你的名字就无关紧要。

但特朗普在初选季确实有一个分析部门。 其工作是识别和动员(尽管不一定是说服)不经常投票的不满公民。

特朗普从哪里获得了进行这项工作的统计模型? 不是来自共和党人——特朗普正在从共和党之外寻找选民。 他使用了同一家公司为克里和奥巴马制作的统计模型:HayStaqDNA,肯·斯特拉斯玛的创作。 Strasma 并不知道特朗普使用了这些模型,这些模型是通过第三方供应商获得的。

Strasma 继续从事政治咨询工作,但将在其 Statistics.com 上的在线说服性分析课程中与任何人分享他的方法。他说:“桑德斯和特朗普都通过吸引非传统选民而打破了预期。 基于对传统民主党和共和党初选选民的民意调查(尤其是在竞选活动早期)进行的预测严重低估了他们的潜力。 通过微定向,他们都能够找到非传统选民,如果能够激励他们参加初选,他们就会支持他们。”

那么,统计学在政治中的未来作用将是什么?

Nate Silver 的形象和网站现在已深深植根于政治舞台,其所有者 ESPN 将尽最大努力确保这种情况继续下去。 他在这一案例中的失误不太可能大大贬低 ESPN 的资产。

但这是否意味着我们可以信任他的预测是另一回事。 作为媒体资产的要求很高,Silver 现在必须每天制作“稿件”,这并不总是有时间进行扎实的研究。 从统计学家的角度来看,他有可能仅仅变成另一个评论员,只不过他的观点是用数字掩盖的。

至于数据挖掘分析在政治领域的未来,很难想象它会消失。 在像特朗普和桑德斯这样充满活力的竞选活动中,它可以帮助识别和动员非传统选民。 在传统的竞争中,它最常在“边缘”运作,即势均力敌的情况下。 在这些情况下,准确地针对个人的鼓励投票和说服努力可能会扭转乾坤。

Peter Bruce founded The Institute for Statistics Education at Statistics.com in 2002. He is a co-author of "Data Mining for Business Analytics" (Wiley), and "Practical Statistics for Data Scientists: 50 Essential Concepts" (O'Reilly,2017), the author of "Introductory Statistics and Analytics: A Resampling Perspective" (Wiley), and the co-developer of Resampling Stats software.

More by Peter Bruce
© . All rights reserved.