民意调查的秘诀也可能是变质的根源

即使样本中与随机性略有偏差,也可能扭曲结果

2020年11月6日,我醒来时,(对于一位统计学家来说)我的推特被关于我2018年文章“大数据中的统计天堂与悖论(一):大 population 法则、大数据悖论和 2016 年美国总统大选。”的推文淹没了。一位好心人将其作为对“民意调查有什么问题?”这个问题的回答,这导致这篇文章迅速走红。

尽管我对受到关注感到荣幸,但我感到失望的是,没有人问“为什么会有人期望民意调查一开始就是正确的?”民意调查通常抽取数百或数千人作为样本,但其目的是了解更大规模的人口。对于预测美国总统大选,进行规模为 n=5,000 的民意调查以了解 N=2.3 亿(符合资格的)选民的意见,相当于平均每 10 万选民中只询问大约两个人。期望从如此少的人的意见中可靠地了解如此多的人,难道不是很荒谬吗?

事实上,当挪威统计局创始人安德斯·基尔在 1895 年国际统计学会 (ISI) 世界大会上提出用“代表性样本”取代全国人口普查的想法时,正如前 ISI 主席让-路易·博丹指出的那样,反应“激烈,基尔的提议几乎一致遭到拒绝!”这个想法花了将近半个世纪才获得普遍接受。


支持科学新闻报道

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事能够拥有未来。


民意调查的统计理论对于许多人来说可能难以理解,但代表性抽样的总体思路更容易接受。在《渥太华公民报》(1941 年 11 月 27 日)一篇关于盖洛普民意调查进入加拿大的报纸报道中,格雷戈里·克拉克写道:

“当厨师想尝尝汤的味道如何时,他不必喝掉整个锅炉。他也不必从上面舀一勺,然后从中间舀一点,再从底部舀一些。他彻底搅拌整个大锅。然后再搅拌一下。然后他品尝一下。这就是盖洛普民意调查的工作原理。”

因此,民意调查的秘诀在于彻底搅拌。一旦汤被彻底搅拌,它的任何部分都变得代表整个汤。这使得可以采样一两勺,以便可靠地评估汤的味道和质地,而不管容器的大小。民意调查通过随机抽样来实现这种“彻底搅拌”,从统计学上讲,随机抽样创建了一个模仿人口的缩影。

但这个秘诀也是变质的根源。我 2018 年的文章展示了如何以数学方式量化缺乏彻底搅拌的情况,并证明了由于“大 population 法则”(LLP),看似轻微的违反彻底搅拌的行为可能会造成惊人的巨大损害。它还揭示了民意调查误差是三个指标的乘积:数据质量、数据数量和问题难度。

为了直观地理解这些术语,让我们继续享用汤。对于只含盐的汤,其味道比含有五香的中国汤更容易辨别。问题难度衡量汤的复杂程度,而与我们如何搅拌或勺子大小无关。数据数量捕捉勺子大小相对于烹饪容器大小的比率。这种强调从仅关注样本量 n 转移到样本分数 n/N(这关键取决于 population 大小 N)是 LLP 的关键。

最关键的指标,也是最难评估的指标是数据质量,它是衡量缺乏彻底搅拌程度的指标。想象一下,一些香料团块没有完全溶解在烹饪中,如果它们更有可能被厨师的勺子舀到,那么厨师尝到的味道可能比汤实际的味道更辣。对于民意调查,如果偏好候选人 B 而不是 A 的人更有可能(或更不可能)提供他们的意见,那么民意调查将高估(或低估)B 而不是 A 的选票份额。这种趋势可以用所谓的皮尔逊相关系数来衡量——让我们用 r 表示它——在偏好 B 和(诚实地)回应民意调查之间。|r| 值越高(r 的幅度),民意调查误差越大。正 r 表示高估,负 r 表示低估。

彻底搅拌或随机抽样的整个想法是确保 r 可以忽略不计,或者从技术上讲,确保它在 N 的平方根倒数的量级上。从统计学上讲,这已经尽可能小了,因为我们必须允许一些抽样随机性。例如,对于 N=2.3 亿,|r| 应小于万分之一千五。然而,对于 2016 年的选举民意调查,r 为 -0.005,或者大约为 200 分之一的幅度,用于预测特朗普的选票份额,正如我在文章中估计的那样(基于 YouGov 进行的民意调查)。虽然百分之零点五的相关性看起来很小,但当乘以 N 的平方根时,其影响会被大大放大。

为了说明这种影响,我的文章计算了 |r|=0.005 降低了多少统计精度。来自 230 万份回复(约占 2016 年符合资格的投票人口的 1%)的意见,当 |r|=0.005 时,其预期民意调查误差与来自真正随机样本中 400 份回复的预期民意调查误差相同。这是实际样本量减少了 99.98%,这是任何标准都令人震惊的损失。规模为 400 的高质量民意调查仍然可以提供可靠的预测,但没有(合格的)竞选经理会因为规模为 400 的民意调查预测获胜而停止竞选活动。但是,当获胜预测来自 230 万份回复时,他们可能会(而且实际上有些人确实)停止竞选活动,这相当于 2,300 次民意调查,每次民意调查有 1,000 份回复。

2016 年普遍被忽视,不幸的是 2020 年再次被忽视(但请参阅哈佛数据科学评论中的这篇文章),是 LLP 的破坏性影响。当我们增加样本量时,统计抽样误差往往会相互抵消,但系统性选择偏差只会随着样本量的增加而固化。更糟糕的是,选择偏差会被 population 大小放大:population 越大,放大倍数越大。这就是 LLP 的本质。

当一滴汤落在厨师的勺子上时,它无法告诉自己“好吧,我有点太咸了,所以我跳出来吧!”但在民意调查中,没有什么可以阻止某人因为害怕揭示特定答案的(感知到的)后果而选择退出。在我们社会知道如何消除这种恐惧之前,或者在民意调查员能够常规且可靠地调整此类选择性回复之前,我们所有人都可以成为更明智的数字时代公民,始终以健康的怀疑态度对待民意调查结果。

© . All rights reserved.