本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
我很高兴本周晚些时候能参加在北卡罗来纳州罗利市举行的 ScienceOnline 会议。我更兴奋的是能够共同主持两个会议!其中一个会议将于周四中午举行,主题是 公共统计学。希尔达·巴斯蒂安,我的犯罪伙伴,写了一篇 卡通 来介绍我们的会议,我一直在思考在这里写些什么。今年新闻中有很多关于统计学的内容,从内特·西尔弗到 "五个西格玛" 发现 类希格斯粒子,再到每一个健康故事。从哪里开始呢?
上周,我早上吃早餐时翻阅《芝加哥读者》,偶然看到了文章 "更绿色的芝加哥会更安全"。在我睡眼惺忪的早晨状态下,我的眼睛有点扫过页面,但它们却锁定在一个包含几个数字的段落上。数字是重要的和客观的(对吧?),所以包含最多数字的部分一定为作者的主要观点提供了清晰、令人信服的论证。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。
在我分享和评论这段摘录之前,请了解我喜欢社区花园,并且我认为如果能有更多的社区花园会很好。这篇文章的论点是城市植被为社区带来许多好处,包括降低犯罪率。我不是在为这个立场辩论或反对;我正在退后一步,思考统计数据在这段段落中的使用方式,以及我们是否应该将它们视为支持文章结论的证据。我也不打算侮辱或诽谤作者。我不认为他很愚蠢或不诚实,并且文章的在线版本确实提供了指向他引用的一些研究摘要的链接,这可以帮助读者自己评估这些说法。我只是认为他可能没有用怀疑的眼光看待他在文章中引用的统计数据以及它们可能如何被解读。
事不宜迟,这是让我眼前一亮的段落
“伊利诺伊大学研究人员最近对[芝加哥]花园的mapping显示,绝大多数芝加哥居民——270 万人中的 240 万人——居住在没有社区花园的人口普查区;这些区域中近一半的贫困率高于城市平均水平 21%;并且这些低收入区域大多位于南部和西部。这些地区有许多蔓延的空地,可以从中受益于耕种。”
这些数字意味着什么?作者显然试图表达一个观点,但对我来说,这有点混乱,甚至有些矛盾。几乎 90% 的芝加哥居民不住在有社区花园的人口普查区。但是人口普查区有多大?如果一个人口普查区只有几个街区,你可能离社区花园很近,但却不会被统计在内。也许更好的衡量标准是居住在与有社区花园的人口普查区相邻的人口普查区,或者在两个人口普查区之内。从文章中,这一点尚不清楚。(值得一提的是,我查了一下,看起来我的社区大约有 1.65 平方英里,其中有 14 个人口普查区。我的人口普查区内没有社区花园,但至少有一个相邻的人口普查区有,而且我认为我步行四分钟就能到达那个花园。)
文章继续写道,“这些区域中近一半的贫困率高于城市平均水平 21%。” 这好还是坏?换句话说,“这些区域中超过一半的贫困率等于或低于城市平均水平 21%。” 这听起来像是一个不同的故事。但是,除了“近一半”与“超过一半”的问题之外,我们应该如何假设贫困在城市中的分布?人口普查区的人口是否非常相似,还是富裕地区人均拥有更多的人口普查区?总体而言,有多少人口普查区的贫困率高于和低于平均水平?我真的不知道我们应该对这种分布做出什么假设,但在初次阅读时,大约一半的人口普查区的贫困率高于平均水平听起来还不太糟糕。这听起来和“我们一半的学生低于平均水平”一样糟糕,这是一个相当没有意义但通常是真的说法。此外,在 270 万公民中抽取 240 万人的样本中,我们预计统计数据将非常接近整个城市的统计数据;只有与这些数字的较大偏差才会引人注目。在没有关于城市中高贫困人口普查区的百分比和位置信息的情况下,我们无法对有城市花园的地区和没有城市花园的地区进行有意义的比较。
在为这篇文章做一些研究后,我清楚地意识到作者几乎逐字逐句地从他提到的 研究论文(抱歉,这是 Elsevier,并且有付费墙)中提取了这些数字,该论文在某种程度上顺便提到了这些数字,并没有对南部和西部地区从城市农业中受益进行评论。该论文是关于使用 Google Earth 追踪城市农业,并更准确地了解芝加哥城市花园的数量和类型。为什么《芝加哥读者》文章的作者觉得有必要引用这些统计数据?显然,使用数字似乎能让论点更具可信度,而且他的读者很可能会以这种方式回应数字。
这篇文章并非孤立事件。统计数据在报纸、杂志和互联网上被广泛使用和误用。它们是必要的。没有它们,科学论文就无法准确描述效应的大小或纯粹由偶然性造成的概率,记者也无法让人们知道一项新研究的含义。作为博主、记者和编辑,我们如何提高媒体统计报道的质量?媒体消费者在阅读这些故事时应该注意什么?
如果您将参加 ScienceOnline 会议,我诚挚邀请您来和我们讨论统计学。我们将讨论我们对统计报道的抱怨、如何在不让读者感到厌烦的情况下负责任地撰写统计学内容,以及为我们这些想要复习一下科学论文中所有这些数字含义的人提供的资源。我们还将讨论过去一年中一些最大的统计学故事,以及媒体在统计学方面做对和做错的地方。
无论您是否会参加会议,都请随时在评论中分享您对公共统计学的抱怨、资源以及对资源的需求。您可以在周四通过 Twitter 关注我们的会议。我们将使用标签 #PublicStats。本次(非)会议的标签是 #scio13。
最后,如果您可以访问有关芝加哥人口普查区贫困分布的一些数据,我很乐意了解一下!