马克·吐温曾写道:“世上有三种谎言:谎言、该死的谎言和统计数字。”(他将这句俏皮话归于前英国首相本杰明·迪斯雷利,但其真正起源尚不清楚。)鉴于统计学在现代科学中的基础性重要性,这句话为科学探索描绘了一幅黯淡的景象。几代人的科学进步证明了吐温的观点是夸大其词。不过,我们不应抛弃这些话语中的智慧。虽然统计学是理解世界的重要工具,但负责任地使用它并避免其陷阱需要精妙的平衡。
所有科学机构的墙壁上都应铭刻一条格言:将你的数据可视化。统计学专门使用客观的定量方法来理解数据,但没有什么可以替代将数据绘制成图表,用自己的眼睛观察其形状和结构。1973年,统计学家弗朗西斯·安斯库姆担心,他所在领域的其他人正在忽视可视化的价值。“我们很少有人能逃脱被灌输”这样一种观念,即“数值计算是精确的,而图表是粗略的”,他写道。为了消除这种误解,安斯库姆设计了一个巧妙的演示,即安斯库姆四重奏。
与其古怪的后继者“数据集恐龙十二宫”一起,没有什么能比这更戏剧性地传达可视化在数据分析中的首要地位了。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。
为了理解安斯库姆四重奏,让我们穿上科学家的实验服。假设您对人们的锻炼量与睡眠量之间的关系感兴趣。您对人口的随机样本进行了关于这些习惯的调查,将答案记录在电子表格中,并通过您最喜欢的统计软件运行结果。摘要统计信息如下(此示例不是基于真实数据):
每周锻炼小时数:平均值,7.5;标准差,2.03
每天睡眠小时数:平均值,9;标准差,3.32
两者之间的相关性0.816
平均而言,您样本中的人每周锻炼 7.5 小时,每天睡眠 9 小时。标准差衡量样本中存在的变异程度。在这里,对于这两个变量来说,标准差都是中等的,表明您调查的大多数人都没有太偏离平均值。两者高度相关,这意味着锻炼更多的人也可能睡得更多。该软件还输出一条最佳拟合线,描述了数据的总体趋势,如下所示。

图片来源:阿曼达·蒙塔内斯;来源:R:用于统计计算的语言和环境。R 核心团队。R 统计计算基金会,2023
鉴于此摘要,可能会很想当然地认为数据看起来像下面图表中的数据集 1。每个点代表您调查中的一个人,并根据该人的个人睡眠和锻炼习惯进行定位。该图表描绘了一个强烈的向上线性趋势,这表明随着人们锻炼更多,他们也睡得更多(可能是因为两者都表明一种普遍健康的生活方式,或者是因为锻炼会让人疲劳)。现实、混乱的世界中固有的随机变异很少。安斯库姆表明,令人惊讶的是,反页显示的所有四个不同数据集都具有相同的摘要统计信息。

图片来源:阿曼达·蒙塔内斯;来源:R:用于统计计算的语言和环境。R 核心团队。R 统计计算基金会,2023
数据集 2 虽然与数据集 1 具有相同的摘要统计信息,但在逐点绘制时,却讲述了一个完全不同的故事。实际值之间的关系显然不是线性的,而且无论出于何种原因,锻炼量对于睡眠最多的人开始逐渐减少。数据集 3 显示了一个完美的线性关系,但有一个异常值,该异常值的锻炼量异常,并扭曲了结果。在数据集 4 中,几乎每个人每天都睡整整八个小时,他们的睡眠习惯与他们的锻炼量无关,而样本中的一个人每天睡近 20 个小时,据推测他们所有清醒的时间都用来锻炼。请注意,一旦我们将数据可视化,相同的统计信息如何引导我们得出截然不同的结论。

尽管它很受欢迎,但没有人知道安斯库姆是如何构思出他的四重奏的。多伦多 Autodesk Research 的 Justin Matejka 和 George Fitzmaurice 试图纠正知识上的这一空白,并将这一概念推向了极致。他们演示了一种通用方法,用于获取任何数据集并将其转换为您选择的任何目标形状,同时保留您想要的任何摘要统计信息(精确到小数点后两位)。结果就是“数据集恐龙十二宫”。

此页面上的所有散点图都具有相同的摘要统计信息!精明的读者可能会注意到,这是一个数据集恐龙“面包师的十三个”。恐龙数据集是生成所有其他数据集的起点。(这是对数据可视化专家 Alberto Cairo 半开玩笑的霸王龙数据集的致敬。)显然,仅凭摘要统计信息无法充分说明问题。
安斯库姆可能会为他的四重奏作为现代统计学课程中常见的教学演示而延续至今感到自豪。正如棒球传奇人物尤吉·贝拉所说,“观察可以学到很多东西。”