数据侦探如何揭露可疑的医学试验

麻醉师约翰·卡莱尔发现了数百篇研究论文中的问题,并促使一家 ведущий 医学期刊改变其做法

麻醉师约翰·卡莱尔在英国托基的一家医院工作,并在业余时间寻找医学研究试验中的统计学错误。

Emli Bendixen 为自然杂志供稿

如果约翰·卡莱尔装了猫门,科学欺诈者晚上可能会睡得更安稳。卡莱尔每天早上 4:30 准时起床,放出家里的宠物 Wizard。然后,由于无法入睡,他拿起笔记本电脑,开始输入已发表的临床试验论文中的数据。在他妻子的闹钟在 90 分钟后响起之前,他通常已经设法用数百人的年龄、体重和身高填满了一张电子表格——他怀疑其中一些人实际上从未存在过。

白天,卡莱尔是一名麻醉师,在英国国家医疗服务体系的海滨小镇托基工作。但在业余时间,他会在科学记录中寻找可疑的临床研究数据。在过去的十年中,他的侦查工作涵盖了用于调查各种健康问题的试验,从特定饮食的益处到医院治疗指南。由于不当行为和错误,这导致数百篇论文被撤回和更正。它还帮助结束了一些大规模造假者的职业生涯:在全世界撤稿最多的六位科学家中,有三位是使用卡莱尔的数据分析变体而被揭露的。

澳大利亚墨尔本阿尔弗雷德医院麻醉和围手术期医学主任保罗·迈尔斯说:“他的技术已被证明非常有用。”他曾与卡莱尔合作检查包含虚假统计数据的研究论文。“他用它来证明一些重大的欺诈案例。”


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。


卡莱尔的统计学副业并不受所有人欢迎。批评者认为,它有时会导致对并非明显有缺陷的论文提出质疑,从而导致不合理的怀疑。

但卡莱尔认为,他正在帮助保护患者,这就是为什么他将业余时间花在研究他人的研究上。“我这样做是因为我的好奇心驱使我这样做,”他说,而不是因为渴望揭露不当行为:“重要的是不要成为反对不当行为的斗士。”

结合其他坚持不懈地检查学术论文的研究人员的工作,他的努力表明,科学的把关人——期刊和机构——可以做更多工作来发现错误。在卡莱尔关注的医学试验中,这可能关系到生死攸关。

行为不端的麻醉师

托基看起来像任何其他传统的英国省份小镇,环形交叉路口上摆放着漂亮的花卉,还有足够多的粉彩色小屋引人注目。卡莱尔在该地区居住了 18 年,并在该镇的综合医院工作。在一个空荡荡的手术室里,在一位病人刚被缝合好并推走后,他解释了他如何开始寻找医学研究中的伪造数据。

十多年前,卡莱尔和其他麻醉学家开始议论一位日本研究员吉高藤井发表的结果。在一系列随机对照试验 (RCT) 中,当时在东京东邦大学工作的藤井声称,他研究了各种药物对预防患者术后呕吐和恶心的影响。但数据看起来太完美了,不像是真的。卡莱尔是众多关注者之一,他决定使用统计检验来检查数据,以找出数据中不太可能的模式。他在 2012 年表明,在许多情况下,模式偶然出现的可能性“微乎其微”。部分受到这项分析的推动,期刊编辑要求藤井现在和以前的大学进行调查;藤井于 2012 年被东邦大学解雇,并有 183 篇论文被撤回,创下历史记录。四年后,卡莱尔与他人共同发表了一篇对另一位日本麻醉师斋藤裕二(藤井的经常合作者)的结果的分析,并证明他的数据也极度可疑。斋藤目前有53 篇撤稿

其他研究人员很快在他们自己的分析中引用了卡莱尔的工作,这些分析使用了他的方法的变体。例如,2016 年,新西兰和英国的研究人员报告了日本南部一家医院的骨骼研究员佐藤嘉弘的论文中存在问题。这最终导致 27 篇撤稿,佐藤撰写的论文总共有 66 篇被撤稿。

在藤井和斋藤的案例之前,麻醉学界曾多次受到欺诈丑闻的冲击——包括德国麻醉师约阿希姆·博尔特,他有 90 多篇论文被撤回。但卡莱尔开始怀疑是否只有他自己的领域存在问题。因此,他选择了八种 ведущий 期刊,并在业余时间检查了他们发表的数千项随机试验。

2017 年,他在麻醉杂志上发表了一篇分析报告,称他在 16 年来发表的 5,000 多项试验中发现了 90 项可疑数据。此后,至少有 10 篇论文被撤回,6 篇被更正,其中包括新英格兰医学杂志 (NEJM) 上发表的一项关于地中海饮食对健康益处的高知名度研究。但在该案例中,没有欺诈的暗示:作者在如何随机分配参与者方面犯了一个错误。在作者删除错误数据后,该论文重新发表,结论相似。

卡莱尔一直在坚持不懈。今年,他警告说,意大利拉奎拉大学的意大利外科医生马里奥·斯基特罗马的数十项麻醉研究不可靠,不能作为临床实践的基础。迈尔斯曾与卡莱尔合作撰写该报告,他去年在斯基特罗马的五篇论文中发现对照组和患者组的原始数据存在可疑的相似之处后,发出了警报。

对斯基特罗马的主张的质疑在全球各地的医院都产生了影响。世界卫生组织在 2016 年发布建议时引用了斯基特罗马的工作,建议麻醉师应在手术期间和手术后常规提高他们向患者输送的氧气水平,以帮助减少感染。这是一个有争议的呼吁:麻醉师知道,在某些手术中,过多的氧气可能与并发症风险增加有关——而且这些建议将意味着贫困国家的医院将更多预算花在昂贵的瓶装氧气上,迈尔斯说。

迈尔斯警告说,这五篇论文很快被撤回,世卫组织将其建议从“强烈”修改为“有条件”,这意味着临床医生可以更自由地为各种患者做出不同的选择。斯基特罗马说,他的计算结果已经过独立统计学家评估和同行评审,而且他特意选择了相似的患者组,因此如果数据非常吻合,也就不足为奇了。他还说,2009 年拉奎拉发生地震时,他丢失了与试验相关的原始数据和文件。该大学的一位发言人说,它已将询问留给“主管调查机构”,但没有解释这些机构是哪些机构,也没有说明是否正在进行任何调查。

麻醉师在手术期间使用的瓶装氧气。图片来源:Mark Thomas Alamy 

发现不自然的数据

卡莱尔说,卡莱尔方法的核心内容并不新鲜:只是真实数据具有自然模式,而人工数据很难复制这些模式。这种现象在 1880 年代就被发现了,并由美国电气工程师和物理学家弗兰克·本福德于 1938 年推广,此后被许多统计检查员使用。例如,政治科学家长期以来一直使用类似的方法来分析调查数据——他们将这种技术称为斯托弗方法,以社会学家塞缪尔·斯托弗的名字命名,他在 1950 年代普及了这种方法。

对于 RCT,卡莱尔会查看描述试验中志愿者群体特征的基线测量值,通常是对照组和干预组。这些包括身高、体重和相关的生理特征——通常在论文的第一个表格中描述。

在真正的 RCT 中,志愿者被随机分配到对照组或(一个或多个)干预组。因此,每个特征的平均值和标准差应该大致相同——但不能太相同。那样就太完美得可疑了。

卡莱尔首先为每个配对构建一个P:一种统计测量,用于衡量如果假设志愿者实际上被随机分配到每个组,则报告的基线数据点有多大可能。然后,他汇总所有这些P 值,以了解测量的总体随机性。组合的P 值如果看起来太高,则表明数据平衡得可疑地好;如果太低,则可能表明患者已被错误地随机分组。

该方法并非万无一失。统计检查要求表格中的变量是真正独立的——但在现实中,它们通常不是。(例如,身高和体重是相关的。)在实践中,这意味着一些被标记为不正确的论文实际上并非如此——因此,一些统计学家批评了卡莱尔的工作。

但卡莱尔说,应用他的方法是一个很好的第一步,它可以突出显示可能值得进一步研究的研究,例如请求论文背后的个人患者数据。

迈尔斯说:“它可以发出红色警报。或者琥珀色警报,或者 5 个或 10 个红色警报,表明这极不可能成为真实数据。”

错误与恶棍

卡莱尔说,他很注意不将任何原因归因于他发现的可能问题。然而,在 2017 年,当卡莱尔对 5,000 项试验的分析出现在麻醉杂志(他是该杂志的编辑)上时,悉尼大学的麻醉师约翰·劳兹曼和蒂姆·麦卡洛克撰写的一篇随刊社论采取了更具挑衅性的路线。

它谈到了“不诚实的作者”和“恶棍”,并暗示“更多已发表 RCT 的作者最终将受到警告”。它还说:“可以有力地论证,世界上每家期刊现在都需要将卡莱尔的方法应用于他们曾经发表的所有 RCT。”

这引起了一家期刊麻醉学的编辑的强烈措辞回应,该期刊发表了卡莱尔强调的 12 篇有问题论文。“卡莱尔的文章在伦理上值得怀疑,并且是对其中‘点名’的先前发表文章的作者的不尊重,”该期刊的主编,北卡罗来纳州达勒姆杜克大学的麻醉师埃文·卡拉什写道。他的社论是与马萨诸塞州综合医院的麻醉师蒂莫西·豪尔共同撰写的,后者是麻醉学的统计顾问,强调了诸如该方法可能会标记出假阳性等问题。“一种检测捏造和伪造(类似于抄袭检查软件)的有效方法将受到欢迎。卡莱尔方法并非如此,”他们在给麻醉杂志的信中写道。

5 月,麻醉学确实更正了卡莱尔强调的一篇论文,指出该论文报告了两个表格中“系统性不正确”的P 值,并且作者丢失了原始数据,无法重新计算这些值。然而,卡拉什说,他坚持自己在社论中的观点。卡莱尔说,劳兹曼和麦卡洛克的社论“合理”,并且对他的工作的批评并没有削弱其价值。“我坦然地认为这项努力是值得的,而其他人可能不这么认为,”他说。

数据检查员

卡莱尔的方法并不是过去几年中出现的唯一一种用于复核已发表数据的方法。

荷兰蒂尔堡大学研究分析方法的米歇尔·努伊滕开发了一种她称之为“统计学拼写检查”的软件,该软件可以扫描期刊文章,以检查所描述的统计数据是否在内部一致。 statcheck 例如,它验证结果部分中报告的数据是否与计算出的P 值一致。它已被用于标记期刊文章中通常是数字排印错误,可以追溯到几十年前的错误。

荷兰格罗宁根大学的心理学研究生尼克·布朗和马萨诸塞州波士顿东北大学研究科学方法的詹姆斯·希瑟斯也使用了一个名为 GRIM 的程序来复核统计平均值的计算,作为标记可疑数据的另一种方法。

这两种技术都不适用于描述 RCT 的论文,例如卡莱尔评估的研究。 Statcheck 在美国心理学会使用的严格数据呈现格式下运行。 GRIM 仅在数据为整数时才有效,例如心理学问卷中生成的离散数字,当一个值从 1 到 5 分时。

加利福尼亚州斯坦福大学研究科学方法并倡导更好地使用统计数据以提高科学可重复性的约翰·约安尼迪斯说,人们对这些类型的检查越来越感兴趣。“它们是非常好的工具,而且非常巧妙。”但他告诫不要对发现的问题的原因妄下结论。“如果我们谈论的是欺诈,而不是一些排印错误,那么情况就完全不同了,”他说。

布朗、努伊滕和卡莱尔都同意,他们的工具只能突出需要调查的问题。 “我真的不想将 statcheck 与欺诈联系起来,”努伊滕说。约安尼迪斯说,这些工具的真正价值在于在论文发表之前筛选有问题的论文数据——从而防止欺诈或错误首先进入文献。

卡莱尔说,越来越多的期刊编辑联系他,询问是否可以以这种方式使用他的技术。目前,大多数工作都是非官方的临时完成的,并且仅当编辑已经感到怀疑时才进行。

至少有两家期刊更进一步,现在将统计检查用作所有论文发表过程的一部分。卡莱尔自己的期刊麻醉杂志会例行使用它,NEJM 的编辑也是如此。 “我们正在努力预防罕见但可能具有重大影响的负面事件,”NEJM 的一位发言人说。 “这值得额外的花费和时间。”

卡莱尔说,他对NEJM 这样具有地位的期刊引入这些检查印象深刻,他亲身知道这些检查是费力、耗时且并非普遍受欢迎的。但他表示,即使要检查每年全球发表的约 200 万篇论文中的一小部分,也需要自动化才能引入这些检查。他认为这是可以做到的。努伊滕说,Statcheck 以这种方式工作,并且正在被多家心理学期刊例行用于筛选投稿。文本挖掘技术使研究人员能够评估数千篇论文中的P 值,例如一种调查P 值操纵的方法——其中调整数据以产生显着的P 值。

该领域的几位研究人员表示,一个问题是,资助者、期刊和科学界许多人对这些检查的重视程度相对较低。 “做这种类型的工作并没有什么回报,”努伊滕说。 “这是你试图找到别人作品中的缺陷,而这不会让你很受欢迎。”

即使发现一项研究是欺诈性的,也并不总是能结束这件事。 2012 年,韩国的研究人员向麻醉与镇痛杂志提交了一份试验报告,该报告研究了面部肌肉张力如何指示将呼吸管插入喉咙的最佳时间。卡莱尔被非正式地要求查看一下,他发现患者数据和摘要数据之间存在差异,并且该论文被拒绝。

值得注意的是,然后它被提交给了卡莱尔自己的期刊,其中包含不同的患者数据——但卡莱尔认出了这篇论文。它再次被拒绝,两家期刊的编辑都向作者及其机构提出了他们的担忧。令卡莱尔惊讶的是,几个月后,这篇论文(与最后版本相同)发表在欧洲麻醉学杂志上。在卡莱尔与期刊编辑分享了该论文的可疑历史后,该论文于 2017 年因“数据中的违规行为,包括结果的虚假陈述”而被撤回。

在看到如此多的欺诈案例以及排印错误和错误之后,卡莱尔提出了他自己关于是什么驱使一些研究人员编造数据的理论。 “他们认为,这次随机机会妨碍了真理,妨碍了他们了解宇宙的真实运作方式,”他说。 “因此,他们将结果更改为他们认为应该有的结果。”

正如卡莱尔所表明的那样,需要一位坚定的数据检查员才能发现欺骗行为。

本文经许可转载,并于 2019 年 7 月 23 日首次发表

大卫·亚当是伦敦的一位作家和记者。

更多作者:大卫·亚当

自然创刊于 1869 年,是世界领先的综合性科学期刊。《自然》发表最优秀的同行评审研究,推动突破性发现,并被世界各地的思想领袖和决策者阅读。

更多作者:自然杂志
SA 健康与医学 第 1 卷 第 5 期本文最初以“数据侦探如何揭露可疑的医学试验”为标题发表于 SA 健康与医学 第 1 卷 第 5 期 ()
doi:10.1038/scientificamerican102019-R3T26qT3NVzlVZZ2NYklh
© . All rights reserved.