节选自《糟糕的制药:制药公司如何误导医生和伤害患者》,作者:Ben Goldacre。由Faber and Faber, Inc.出版。© 2013 Ben Goldacre。经出版商许可摘录。版权所有。
在我们开始之前,我们需要毫无疑问地确定一件事:与独立资助的试验相比,工业界资助的试验更可能产生积极、讨人喜欢的结果。这是我们的核心前提,您即将阅读一个非常短的章节,因为这是在不断发展的“关于研究的研究”领域中最有据可查的现象之一。近年来,由于关于申报行业资助的规则变得更加清晰,这项研究也变得容易得多。
我们可以从一些最近的研究开始:2010年,来自哈佛大学和多伦多大学的三位研究人员找到了所有关于五大类药物(抗抑郁药、溃疡药等等)的试验,然后测量了两个关键特征:它们是阳性的吗?它们是由工业界资助的吗?他们总共发现了五百多项试验:85%的工业界资助的研究是阳性的,但只有50%的政府资助的试验是阳性的。这是一个非常显著的差异。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
2007年,研究人员查看了每一项旨在探索他汀类药物益处的已发表试验。这些是降低胆固醇的药物,可以降低您患心脏病的风险,它们被大量处方,并且将在本书中占有重要地位。这项研究总共发现了192项试验,要么是将一种他汀类药物与另一种他汀类药物进行比较,要么是将他汀类药物与另一种治疗方法进行比较。一旦研究人员控制了其他因素(我们稍后将深入探讨这意味着什么),他们发现,工业界资助的试验给出有利于受试药物的结果的可能性高出二十倍。同样,这是一个非常大的差异。
我们再做一个。2006年,研究人员调查了四种学术期刊在十年期间发表的每一项精神科药物试验,总共发现了542个试验结果。工业界赞助商在78%的时间里获得了对其自身药物有利的结果,而独立资助的试验只有48%的时间给出了积极的结果。如果您是一种在试验中与赞助商的药物竞争的药物,那么您的处境将非常艰难:您只有可怜的28%的时间会获胜。
这些是令人沮丧、令人恐惧的结果,但它们来自个别研究。当一个领域进行了大量研究时,总是可能有人——例如我——会选择性地挑选结果,并给出片面的观点。本质上,我可能正在做我指责制药行业正在做的事情,只告诉您支持我的案例的研究,同时对您隐瞒那些令人放心的研究。
为了防范这种风险,研究人员发明了系统评价。我们将很快更详细地探讨这一点,因为它处于现代医学的核心,但本质上系统评价很简单:您不是仅仅在研究文献中闲逛,有意识或无意识地挑选出支持您预先存在的信念的论文,而是对寻找科学证据的过程采取科学、系统的方法,确保您的证据尽可能完整且具有代表性,代表所有已完成的研究。
系统评价非常非常繁琐。巧合的是,2003年发表了两篇系统评价,都专门研究了我们感兴趣的问题。他们收集了所有已发表的研究,这些研究调查了行业资助是否与亲行业的成果相关。每篇系统评价都采用了略有不同的方法来查找研究论文,并且都发现,总体而言,行业资助的试验报告阳性结果的可能性大约是四倍。2007年的一项进一步综述查看了在这两篇早期综述之后的四年中发表的新研究:它发现了另外二十篇著作,其中除两篇外,所有著作都表明行业赞助的试验更可能报告令人满意的结果。
我详细列出这些证据是因为我想非常清楚地表明,这个问题是毫无疑问的。行业赞助的试验会给出有利的结果,这不是我的意见,也不是偶尔路过的研究的直觉。这是一个有据可查的问题,并且已经进行了广泛的研究,但没有人站出来采取有效行动,正如我们将看到的。
我想告诉您最后一项研究。事实证明,即使您不再关注已发表的学术论文,而是查看学术会议的试验报告(数据通常首次出现在那里),行业资助的试验更可能给出阳性结果的这种模式仍然存在(事实上,正如我们将看到的,有时试验结果仅出现在学术会议上,关于研究如何进行的的信息非常少)。
Fries和Krishnan研究了2001年美国风湿病学会会议上提交的所有研究摘要,这些摘要报告了任何类型的试验,并承认了行业赞助,目的是找出有多少比例的结果对赞助商的药物有利。接下来有一个小小的妙语,为了理解它,我们需要了解一下学术论文的样子。一般来说,结果部分内容广泛:给出了每个结果和每个可能的因果因素的原始数字,但不仅仅是原始数字。给出了“范围”,可能探索了亚组,进行了统计检验,并且结果的每个细节都以表格形式描述,并在文本中以较短的叙述形式描述,解释了最重要的结果。这个漫长的过程通常分布在几页纸上。
在Fries和Krishnan [2004] 年的研究中,这种程度的细节是不必要的。结果部分是一个简单、简洁,而且——我喜欢想象——相当被动攻击性的句子
每一项RCT(45项中的45项)的结果都对赞助商的药物有利。
对于那些对节省时间的捷径感兴趣的人来说,这个极端发现有一个非常有趣的副作用。由于每一项行业赞助的试验都取得了积极的结果,这就是您需要了解的关于一项工作的所有信息,以预测其结果:如果它是由行业资助的,您可以绝对肯定地知道该试验发现该药物非常棒。
这是怎么发生的?行业赞助的试验如何几乎总是设法获得积极的结果?据任何人可以确定的,这是多种因素的结合。有时试验在设计上存在缺陷。您可以将您的新药与您知道是垃圾的东西进行比较——也许是剂量不足的现有药物,或者几乎没有任何作用的安慰剂糖丸。您可以非常仔细地选择您的患者,以便他们更可能在您的治疗下好转。您可以中途查看结果,如果结果看起来不错,您可以提前停止您的试验(由于我们将讨论的有趣原因,这在统计学上是毒药)。等等。
但是在我们讨论这些引人入胜的方法论上的曲折和怪癖,这些阻止试验成为对治疗是否有效进行公平测试的推动和障碍之前,还有一些更简单的事情摆在眼前。
有时制药公司会进行大量试验,当他们看到结果不尽如人意时,他们 simplemente 不发布这些结果。这不是一个新问题,它不仅限于医学。事实上,负面结果丢失的问题几乎渗透到科学的每个角落。它扭曲了脑成像和经济学等不同领域的发现,它嘲弄了我们为排除研究中的偏见所做的一切努力,尽管监管机构、制药公司甚至一些学者会告诉您什么,但这是一个几十年都未解决的问题。
事实上,这个问题根深蒂固,即使我们今天解决了它——现在,永远彻底地解决,在我们的立法中没有任何缺陷或漏洞——那仍然无济于事,因为我们仍然会继续行医,愉快地根据几十年来的医学证据(正如您现在所看到的,这些证据从根本上被扭曲了)来决定哪种治疗方法是最好的。
但前方还有路。
为什么缺失数据很重要
瑞波西汀是我自己开过的一种药。其他药物对这位特定的患者没有任何作用,所以我们想尝试一些新的东西。在开处方之前,我阅读了试验数据,发现只有设计良好、公平的测试,结果非常积极。在头对头比较中,瑞波西汀优于安慰剂,并且与任何其他抗抑郁药一样好。它已获得英国药品和保健品监管局 (MHRA) 的批准使用,但明智的是,美国选择不批准它。(这并不能证明 FDA 比 MHRA 更聪明;美国有很多英国从未批准的药物。)瑞波西汀显然是一种安全有效的治疗方法。我和患者简要讨论了证据,并同意这是接下来尝试的正确治疗方法。我签署了一份处方,表示我希望我的患者服用这种药物。
但我们都被误导了。2010年10月,一组研究人员终于能够汇集所有关于瑞波西汀的试验。通过漫长的调查过程——在学术期刊中搜索,但也费力地向制造商索取数据并从监管机构收集文件——他们能够汇集所有数据,包括来自已发表的试验和从未在学术论文中出现的试验的数据。
当所有这些试验数据放在一起时,它产生了一个令人震惊的画面。已经进行了七项比较瑞波西汀与安慰剂的试验。只有一项在254名患者中进行的试验取得了整洁、积极的结果,并且该试验发表在学术期刊上,供医生和研究人员阅读。但是又进行了六项试验,患者人数几乎是其十倍。所有这些试验都表明,瑞波西汀不比安慰剂糖丸好。这些试验都没有发表。我不知道它们的存在。
情况变得更糟。比较瑞波西汀与其他药物的试验显示了完全相同的画面:三项小型研究,总共507名患者,表明瑞波西汀与任何其他药物一样好。这些研究都发表了。但是1,657名患者的数据被遗漏未发表,而这些未发表的数据表明,服用瑞波西汀的患者比服用其他药物的患者情况更糟。如果所有这些还不够糟糕,还有副作用数据。该药物在学术文献中出现的试验中看起来不错:但是当我们看到未发表的研究时,结果表明,如果患者服用瑞波西汀而不是其竞争对手之一,他们更有可能出现副作用,更有可能停止服用该药物,并且更有可能因副作用而退出试验。
如果您对本书中的故事是否让我生气有任何疑问——我向您保证,无论发生什么,我都会坚持数据,并努力公正地描述我们所知道的一切——您只需要看看这个故事。我做了医生应该做的一切。我阅读了所有论文,我批判性地评估了它们,我理解了它们,我与患者讨论了它们,并且我们一起根据证据做出了决定。在已发表的数据中,瑞波西汀是一种安全有效的药物。实际上,它不比糖丸好,更糟糕的是,它弊大于利。作为一名医生,我做了一些事情,根据所有证据的平衡,伤害了我的患者,仅仅是因为不尽如人意的数据没有发表。
如果您觉得这令人惊讶或令人愤慨,那么您的旅程才刚刚开始。因为在这种情况下没有人违反任何法律,瑞波西汀仍然在市场上,并且允许这一切发生的系统仍然在发挥作用,适用于世界上所有国家的所有药物。负面数据丢失,适用于所有治疗方法,适用于科学的所有领域。我们理所当然地期望消除这种做法的监管机构和专业机构让我们失望了。
在接下来的几页中,我们将回顾证明所有这一切的文献,毫无疑问地表明“发表偏倚”——负面结果未发表的过程——在整个医学界和学术界都很普遍;尽管有数十年的数据表明问题的严重性,但监管机构未能对此采取任何措施。但是在我们开始研究之前,我需要您感受到其影响,因此我们需要思考为什么缺失数据很重要。
证据是我们唯一可能知道某种东西在医学中是否有效——或无效——的方法。我们通过尽可能谨慎地在头对头试验中测试事物,并将所有证据收集在一起。最后一步至关重要:如果我向您隐瞒一半的数据,我就很容易让您相信一些不真实的事情。例如,如果我抛一百次硬币,但只告诉您正面朝上的结果,我可以让您相信这是一枚双头硬币。但这并不意味着我真的有一枚双头硬币:这意味着我在误导您,而您是个傻瓜,让我就这样蒙混过关。这正是我们在医学中容忍的情况,并且一直如此。研究人员可以随意进行任意数量的试验,然后选择发布哪些试验。
这造成的后果远远超出了仅仅误导医生了解干预措施对患者的益处和危害,也远远超出了试验本身。医学研究不是抽象的学术追求:它关乎人,因此每次我们未能发表一项研究时,我们都会使真实的、活着的人们遭受不必要的、可以避免的痛苦。
TGN1412
2006年3月,六名志愿者抵达伦敦一家医院参加一项试验。这是名为 TGN1412 的新药首次用于人体,他们每人获得了 2,000 英镑的报酬。在一小时内,这六名男子出现了头痛、肌肉酸痛和不安的感觉。然后情况变得更糟:高烧、躁动不安、间歇性地忘记自己是谁以及身在何处。很快他们就开始发抖、脸红、脉搏加快、血压下降。然后,情况急转直下:一人出现呼吸衰竭,随着肺部充满液体,他血液中的氧气水平迅速下降。没有人知道为什么。另一人的血压降至仅 65/40,停止正常呼吸,并被紧急送往重症监护室,被打昏、插管、机械通气。一天之内,这六人病情都非常严重:肺部积液、呼吸困难、肾脏衰竭、血液在全身不受控制地凝结,白细胞消失。医生对他们使用了所有可能的治疗方法:类固醇、抗组胺药、免疫系统受体阻滞剂。所有六人都接受了重症监护室的通气治疗。他们停止产生尿液;他们都被送去透析;他们的血液被替换,先缓慢地,然后迅速地;他们需要血浆、红细胞、血小板。发烧持续不断。一人患上了肺炎。然后血液停止流向他们的末梢。他们的手指和脚趾变得潮红,然后变成棕色,然后变成黑色,然后开始腐烂和死亡。经过英勇的努力,所有人都得以幸免于难,至少保住了性命。
卫生部召集了一个专家科学小组,试图了解发生了什么事,并由此提出了两个担忧。首先:我们能否阻止此类事件再次发生?例如,如果一种新的实验性疗法的剂量完全未知,那么同时将这种疗法给予“首次人体”试验的所有六名参与者显然是愚蠢的。新药应该以交错的方式,在一天内缓慢地给予参与者。这个想法引起了监管机构和媒体的广泛关注。
较少被注意到的是第二个担忧:我们是否可以预见到这场灾难?TGN1412 是一种分子,它附着在免疫系统白细胞上称为 CD28 的受体上。这是一种新的实验性治疗方法,它以人们知之甚少的方式干扰免疫系统,并且很难在动物身上建模(与血压不同,因为不同物种之间的免疫系统差异很大)。但正如最终报告所发现的那样,有一种类似的干预措施的经验:它只是没有发表。一位研究人员向调查组提交了一项未发表的数据,该数据是关于他早在十年前对一名人类受试者进行的一项研究,该研究使用了附着在 CD3、CD2 和 CD28 受体上的抗体。这种抗体的作用与 TGN1412 的作用有相似之处,接受测试的受试者变得不适。但是没有人可能知道这一点,因为这些结果从未与科学界分享。当这些结果本可以帮助六名男子免受可怕的、破坏性的、可以避免的折磨时,它们却未发表、不为人知。
最初的研究人员无法预见他造成的具体危害,而且很难责怪他个人,因为他所处的学术文化将未发表数据视为完全正常的事情。同样的文化今天仍然存在。关于 TGN1412 的最终报告得出结论,共享所有首次人体研究的结果至关重要:应该按惯例发表每一项研究。但 1 期试验结果当时没有发表,现在仍然没有发表。2009 年,首次发表了一项专门研究有多少首次人体试验被发表,以及有多少试验仍然被隐藏的研究。他们收集了一年多来一个伦理委员会批准的所有此类试验。四年后,十分之九的试验仍然未发表;八年后,五分之四的试验仍然未发表。
在医学中,正如我们将一次又一次看到的那样,研究不是抽象的:它直接关系到生命、死亡、痛苦和疼痛。随着每一项未发表的研究,我们都可能不必要地暴露于另一次 TGN1412 事件中。即使是一个巨大的国际新闻故事,其中有年轻人在病床上挥舞着发黑的脚和手的可怕图像,也不足以推动行动,因为缺失数据的问题太复杂,无法用一句话概括。
当我们不分享基础研究的结果时,例如一项小型的首次人体研究,我们会在未来使人们面临不必要的风险。这是一个极端案例吗?问题是否仅限于早期、实验性的新药,在小规模的试验参与者群体中?
在 20 世纪 80 年代,美国医生开始给所有心脏病发作的患者服用抗心律失常药物。这种做法在理论上是完全合理的:我们知道抗心律失常药物有助于预防异常心律;我们也知道心脏病发作的人很可能出现异常心律;我们也知道这些异常心律通常未被注意到、未被诊断和未被治疗。给所有心脏病发作的人服用抗心律失常药物是一种简单、明智的预防措施。
不幸的是,事实证明我们错了。这种出于好意、基于最佳原则的处方实践实际上害死了人。而且由于心脏病发作非常常见,它导致大量人死亡:在人们意识到对于没有确诊异常心律的患者来说,益处和风险之间的微妙平衡完全不同之前,超过 10 万人不必要地死亡。
有人能预测到这一点吗?可悲的是,是的,他们本可以预测到。1980 年的一项试验在一小群心脏病发作的男性(不到一百人)中测试了一种新的抗心律失常药物氯卡尼,以查看它是否有效。服用氯卡尼的 48 名男性中有 9 人死亡,而服用安慰剂的 47 人中只有 1 人死亡。该药物处于早期开发阶段,在这项研究后不久,由于商业原因被放弃。由于它没有上市,没有人想到发表这项试验。研究人员认为这是他们分子的特质,并没有进一步考虑。如果他们发表了,我们本可以更加谨慎地尝试对心脏病发作的人使用其他抗心律失常药物,并且本可以更快地阻止惊人的死亡人数——超过 10 万人过早入土为安。十多年后,研究人员最终发表了他们的结果,并进行了自我批评,承认他们因未早些分享结果而造成的伤害
当我们在 1980 年进行研究时,我们认为氯卡尼组死亡率的增加是偶然效应。氯卡尼的开发由于商业原因被放弃,因此这项研究从未发表;现在它是“发表偏倚”的一个很好的例子。这里描述的结果可能已经提供了对未来麻烦的早期警告。10
正如我们稍后将看到的那样,未发表数据的问题在整个医学界,甚至整个学术界都很普遍,尽管问题的严重程度及其造成的危害已被毫无疑问地记录在案。我们将看到关于基础癌症研究、达菲、降胆固醇重磅炸弹药物、肥胖症药物、抗抑郁药等的案例,证据从医学的黎明到今天,并且数据仍在被隐瞒,就在我写作的此时此刻,关于许多阅读本书的您今天早上已经服用过的广泛使用的药物。我们还将看到监管机构和学术机构如何屡次未能解决这个问题。
由于研究人员可以随意掩埋任何他们喜欢的结果,因此患者在整个医学领域,从研究到实践,都面临着惊人的危害。医生可能不知道他们给予的治疗的真正效果。这种药物真的效果最好吗,还是我只是被剥夺了一半的数据?没有人能说得清。这种昂贵的药物值得花钱吗,还是数据只是被篡改了?没有人能说得清。这种药物会杀死患者吗?有什么证据表明它很危险吗?没有人能说得清。
这是一种在医学领域出现的奇怪情况,医学是一门一切都应该以证据为基础的学科,日常实践都与医疗法律焦虑息息相关。在人类行为监管最严格的领域之一,我们却忽视了要点,并允许驱动实践的证据受到污染和扭曲。这似乎难以想象。我们现在将看到这个问题有多么严重。
为什么我们要总结数据
医学界已经对缺失数据进行了广泛研究。但在我阐述这些证据之前,我们需要从科学的角度准确理解为什么它很重要。为此,我们需要理解系统评价和“荟萃分析”。两者都是现代医学中最强大的思想之一。它们非常简单,但它们的发明却出奇地晚。
当我们想知道某种东西是否有效时,我们会进行试验。这是一个非常简单的过程,最早有记录的某种试验尝试是在《圣经》中(但以理书 1:12,如果您有兴趣)。首先,您需要一个未解答的问题:例如,“给分娩早产儿的妇女服用类固醇是否会增加婴儿的存活机会?”然后您找到一些相关的参与者,在本例中是即将分娩早产儿的母亲。您将需要相当数量的参与者,例如本次试验需要 200 名。然后您将她们随机分为两组,给一组母亲当前最佳治疗方法(无论您所在城镇的最佳治疗方法是什么),而另一组母亲则接受当前最佳治疗方法加上一些类固醇。最后,当所有 200 名妇女都完成了您的试验后,您统计每组中有多少婴儿存活。
这是一个现实世界的问题,并且从 1972 年开始,就这个问题进行了许多试验:两项试验表明类固醇可以挽救生命,但五项试验表明没有显着益处。现在,您经常会听到,当证据混杂时,医生会有不同意见,而这正是这种情况。一位强烈预先相信类固醇有效的医生——可能专注于某种理论分子机制,通过该机制,该药物可能在体内发挥一些有用的作用——可能会走过来说:“看看这两项阳性试验!我们当然必须使用类固醇!”一位强烈预先直觉认为类固醇是垃圾的医生可能会指着五项阴性试验说:“总的来说,证据表明没有益处。为什么要冒险?”
直到最近,这基本上就是医学进步的方式。人们会撰写冗长、乏味的综述文章——调查文献的论文——在其中他们会以完全不系统的方式引用他们遇到的试验数据,通常反映他们自己的偏见和价值观。然后,在 20 世纪 80 年代,人们开始做一些叫做“系统评价”的事情。这是一种清晰、系统地调查文献的方法,其目的是获取您可以找到的关于一个主题的所有试验数据,而不会对任何特定的发现集产生偏见。在系统评价中,您会准确描述您如何查找数据:您搜索了哪些数据库,您使用了哪些搜索引擎和索引,甚至您搜索了哪些词。您预先指定可以纳入您的评价的研究类型,然后您会展示您找到的所有内容,包括您拒绝的论文,并解释原因。通过这样做,您可以确保您的方法完全透明、可复制且可以接受批评,从而为读者提供清晰完整的证据图景。这听起来可能是一个简单的想法,但系统评价在临床医学之外非常罕见,并且悄然成为过去四十年中最重要和最具颠覆性的思想之一。
当您将所有试验数据放在一个地方时,您可以进行一项名为荟萃分析的操作,其中您将所有结果汇总到一个巨大的电子表格中,汇集所有数据并获得一个单一的摘要数字,这是关于一个临床问题的所有数据的最准确摘要。这的输出称为“森林图”,您可以在下一页的 Cochrane 协作组织(一个全球性的非营利性学术组织,自 20 世纪 80 年代以来一直在制作关于医学重要问题的黄金标准证据评价)的徽标中看到一个森林图。
这张森林图显示了所有关于使用类固醇帮助早产儿存活的试验结果。每条水平线代表一项试验:如果该线更靠左,则该试验表明类固醇是有益的并且可以挽救生命。中心的垂直线是“无效线”:如果试验的水平线接触到无效线,则该试验表明没有统计学意义的益处。有些试验用较长的水平线表示:这些是规模较小的试验,参与者较少,这意味着它们更容易出错,因此对益处的估计具有更大的不确定性,因此水平线更长。最后,底部的菱形表示“摘要效应”:这是干预措施的总体益处,汇集了所有单个试验的结果。这些比单个试验的线条窄得多,因为估计值更准确:它总结了药物在更多患者中的作用。在这张森林图上,您可以看到——因为菱形远离无效线——给予类固醇非常有益。事实上,它将早产儿死亡的机会减少了近一半。
关于这张森林图的惊人之处在于它必须被发明出来,而这发生在医学史上非常晚的时候。多年来,我们掌握了所有我们需要知道的类固醇可以挽救生命的信息,但没有人知道它们是有效的,因为直到 1989 年才有人进行系统评价。结果,这种治疗方法没有得到广泛应用,并且大量婴儿不必要地死亡;不是因为我们没有信息,而仅仅是因为我们没有正确地综合这些信息。
如果您认为这是一个孤立的案例,那么值得仔细研究一下医学在最近的恐怖时期之前是多么的支离破碎。下一页的图表包含两张森林图,或“森林图”,显示了所有已进行的试验,以查看给予链激酶(一种溶栓药物)是否能提高心脏病发作患者的生存率。
首先只看左侧的森林图。这是一个来自学术期刊的传统森林图,因此它比 Cochrane 徽标中的程式化森林图要繁忙一些。但是,原理完全相同。每条水平线代表一项试验,您可以看到结果混杂,有些试验显示有益处(它们不接触标题为“1”的无效垂直线),而有些试验显示没有益处(它们确实穿过该线)。然而,在底部,您可以看到摘要效应——这个老式森林图上的一个点,而不是一个菱形。您可以非常清楚地看到,总的来说,链激酶可以挽救生命。
那么右边的是什么?它被称为累积荟萃分析。如果您查看图表左侧的研究列表,您可以看到它们是按日期顺序排列的。右侧的累积荟萃分析将每个新试验的结果(随着它们在历史上的到来)添加到先前试验的结果中。这提供了每年对当时证据外观的最佳运行估计,如果有人费心对他们可用的所有数据进行荟萃分析的话。从这张累积森林图中,您可以看到水平线,“摘要效应”随着收集到越来越多的数据而随着时间推移而变窄,并且对这种治疗的总体益处的估计变得更加准确。您还可以看到,这些水平线在很久以前就停止接触无效的垂直线——而且至关重要的是,它们在很久以前就停止接触,远在我们开始给所有患有
心脏病发作的人服用链激酶之前。
如果您还没有自己发现——公平地说,整个医学界都反应迟钝——这张图表具有毁灭性的含义。心脏病发作是一种非常常见的死亡原因。我们有一种有效的治疗方法,并且我们掌握了所有我们需要知道它有效的信息,但我们再次没有系统地将所有信息整合在一起以获得正确的答案。森林图底部那些试验中有一半的人被随机分配到不接受链激酶,我认为这是不道德的,因为我们掌握了所有我们需要知道链激酶有效的信息:他们被剥夺了有效的治疗。但他们并不孤单,因为当时世界上大多数其他人也是如此。
我希望这些故事说明了为什么系统评价和荟萃分析如此重要:我们需要汇集关于一个问题的所有证据,而不仅仅是选择性地挑选我们偶然发现或凭直觉喜欢的部分。值得庆幸的是,在过去的几十年里,医学界已经认识到这一点,现在系统评价和荟萃分析几乎被普遍使用,以确保我们对特定医学问题的所有已完成试验进行最准确的总结。
但这些故事也说明了为什么缺失的试验结果如此危险。如果一位研究人员或医生在总结现有证据时“选择性采摘”,只关注那些支持他们预想的试验,那么他们可能会对研究产生误导性的描述。这对于那个个体(以及任何不幸或不明智地受其影响的人)来说是一个问题。但是,如果我们所有人都错过了阴性试验,包括全世界的整个医学和学术界,那么当我们汇集证据以尽可能最好地了解哪些方法有效时——这是我们必须做的——我们都会被完全误导。我们会对治疗的有效性产生误导性的印象:我们不正确地夸大了它的益处;或者甚至可能错误地发现干预措施是有益的,而实际上它造成了伤害。
既然您了解了系统综述的重要性,您就可以明白为什么缺失数据很重要。但您也可以理解,当我解释有多少试验数据缺失时,我正在给您一个清晰的文献概述,因为我将使用系统综述来解释这些证据。
究竟有多少数据缺失了呢?
如果您想证明试验结果被隐瞒未发表,您会遇到一个有趣的问题:您需要证明您无法访问的研究的存在。为了解决这个问题,人们开发了一种简单的方法:您确定一组您知道已经进行并完成的试验,然后检查它们是否已发表。找到已完成试验的列表是这项工作中棘手的部分,为了实现这一目标,人们使用了各种策略:例如,梳理伦理委员会(或美国的“机构审查委员会”)批准的试验列表;或追查研究人员在会议上讨论的试验。
2008 年,一组研究人员决定检查美国食品和药物管理局报告过的所有抗抑郁药试验的发表情况,这些抗抑郁药是在 1987 年至 2004 年间上市的。这是一项不小的任务。FDA 档案包含大量关于提交给监管机构以获得新药许可的所有试验的信息。但这并不是全部试验,因为药物上市后进行的试验不会出现在那里;而且 FDA 提供的信息难以搜索,而且通常很简略。但它是试验的一个重要子集,并且足以让我们开始探索试验丢失的频率以及原因。它也是所有主要制药公司试验的代表性切片。
研究人员总共发现了 74 项研究,代表了 12,500 名患者的数据。其中 38 项试验结果为阳性,发现新药有效;36 项为阴性。因此,实际上,这些药物的成功与失败结果各占一半。然后,研究人员开始在已发表的学术文献中寻找这些试验,这些文献是医生和患者可以获得的资料。这提供了一个非常不同的画面。37 项阳性试验——除了一项之外——都完整发表了,通常还伴随着大张旗鼓的宣传。但阴性结果的试验却命运迥异:只有 3 项发表了。22 项完全消失在历史长河中,除了在那些布满灰尘、杂乱无章、薄薄的 FDA 文件中之外,从未在任何地方出现过。其余 11 项在 FDA 摘要中显示为阴性结果的试验确实出现在学术文献中,但却被写成药物是成功的。如果您觉得这听起来很荒谬,我同意:我们将在关于“不良试验”的第 4 章中看到,如何对研究结果进行修改和润色,以歪曲和夸大其发现。
这是一项杰出的工作,涵盖了所有主要制造商的 12 种药物,没有明显的坏人。它非常清楚地揭示了一个破碎的系统:实际上我们有 38 项阳性试验和 37 项阴性试验;在学术文献中,我们有 48 项阳性试验和 3 项阴性试验。花点时间在您的脑海中来回切换这些数字:“38 项阳性试验,37 项阴性”;或“48 项阳性试验,只有 3 项阴性”。
如果我们谈论的是一项单一的研究,来自一个单一的研究小组,他们决定删除一半的结果,因为这些结果没有给出他们想要的总体情况,那么我们会非常正确地将这种行为称为“研究不端行为”。然而,不知何故,当完全相同的现象发生时,但整个研究都消失了,由世界各地公共和私营部门的成千上万个人之手造成,我们却将其视为生活中的正常现象。它在监管机构和专业机构的注视下悄然发生,他们无所作为,将其视为例行公事,尽管它对患者产生了不可否认的影响。
更奇怪的是:我们几乎在人们开始认真进行科学研究时就知道了阴性研究消失的问题。
这最早是由一位名叫西奥多·斯特林 (Theodore Sterling) 的美国心理学家在 1959 年正式记录下来的。他翻阅了当时四大心理学期刊上发表的每一篇论文,发现 294 篇论文中有 286 篇报告了具有统计学意义的结果。他解释说,这显然很可疑:这不可能公平地代表所有已进行的研究,因为如果我们相信这一点,我们就不得不相信心理学家在实验中测试的几乎每个理论都被证明是正确的。如果心理学家真的如此擅长预测结果,那么根本没必要费心进行实验。1995 年,在他职业生涯的末期,这位研究人员在半个世纪后又回到了同样的问题,发现几乎没有任何变化。
斯特林是第一个将这些想法放入正式学术背景的人,但基本事实在几个世纪前就已被认识到。弗朗西斯·培根在 1620 年解释说,我们常常只记住事情成功的时候,而忘记事情失败的时候,从而误导自己。托马斯·福勒医生在 1786 年列出了他见过的用砷治疗的病例,并指出他本可以像其他人可能被诱惑做的那样,掩盖失败的病例,但他还是将其包括在内了。他解释说,否则就会产生误导。
然而,直到三十年前,人们才开始意识到缺失的试验对医学构成了严重的问题。1980 年,埃琳娜·海明基 (Elina Hemminki) 发现,20 世纪 70 年代中期在芬兰和瑞典进行的大约一半的试验都未发表。然后,在 1986 年,一位名叫罗伯特·西姆斯 (Robert Simes) 的美国研究人员决定调查一项针对卵巢癌新疗法的试验。这是一项重要的研究,因为它关注的是生死攸关的问题。这种癌症的联合化疗具有非常严重的副作用,考虑到这一点,许多研究人员曾希望,最好先使用一种单一的“烷化剂”药物,然后再进行全面的化疗。西姆斯查阅了学术文献中发表的所有关于这个问题的试验,这些文献是医生和学者阅读的。从这方面来看,首先给予单一药物似乎是个好主意:患有晚期卵巢癌(这不是一个好的诊断结果)的女性,单独使用烷化剂的女性,更有可能存活更长时间。
然后西姆斯有了一个聪明的想法。他知道有时试验可能会未发表,并且他听说结果“不那么令人兴奋”的论文最有可能丢失。然而,要证明这种情况已经发生,这是一项棘手的工作:您需要找到所有已进行试验的公平、有代表性的样本,然后将它们的结果与已发表的较小试验库进行比较,看看是否存在任何令人尴尬的差异。没有简单的方法可以从药品监管机构获得此信息(我们将在稍后详细讨论这个问题),因此他转而求助于国际癌症研究数据银行。该数据库包含美国正在进行的有趣试验的登记册,包括大多数由政府资助的试验,以及来自世界各地的许多其他试验。它绝不是一个完整的列表,但它确实有一个关键特征:试验是在结果出来之前注册的,因此从该来源编制的任何列表,即使不是完整的,至少也是所有已完成研究的代表性样本,并且不会因其结果是阳性还是阴性而产生偏差。
当西姆斯将已发表试验的结果与预先注册的试验进行比较时,结果令人不安。查看学术文献——研究人员和期刊编辑选择发表的研究——单独使用烷化剂似乎是个好主意,可以显著降低晚期卵巢癌的死亡率。但是,当您仅查看预先注册的试验时——所有已进行试验的公正、公平的样本——新疗法并不比老式的化疗更好。
西姆斯立即意识到——我希望您也会意识到——与他即将引爆医学文献的深水炸弹相比,一种癌症治疗方法是否优于另一种癌症治疗方法的问题只是小菜一碟。我们过去认为我们了解的关于治疗是否有效的一切都可能被扭曲了,扭曲的程度可能难以衡量,但肯定会对患者护理产生重大影响。我们看到了阳性结果,却错过了阴性结果。关于这一点,我们应该做一件明确的事情:启动所有临床试验的注册系统,要求人们在开始研究之前注册他们的研究,并坚持要求他们在最后发表结果。
那是 1986 年。自那时以来,一代人过去了,我们做得非常糟糕。在这本书中,我保证我不会用数据淹没您。但与此同时,我不希望任何制药公司、政府监管机构、专业机构或任何怀疑整个故事的人有任何推诿的空间。因此,我现在将尽可能简短地回顾所有关于缺失试验的证据,展示已使用的主要方法。您即将阅读的所有内容均来自关于该主题的最新系统综述,因此您可以确信它是对结果的公平和公正的总结。
一种研究方法是从药品监管机构记录的所有试验中获取信息,从为获得新药许可而进行的早期试验开始,然后检查它们是否都出现在学术文献中。这就是我们在上面提到的论文中看到的采用的方法,研究人员在那篇论文中寻找了关于 12 种抗抑郁药的每一篇论文,发现阳性和阴性结果各占一半,变成了 48 篇阳性论文和仅 3 篇阴性论文。这种方法已在医学的几个不同领域得到广泛应用。
例如,Lee 及其同事查找了 2001 年至 2002 年间上市的所有 90 种新药的营销申请中提交的所有 909 项试验:他们发现,66% 具有显著结果的试验已发表,而其余试验中只有 36% 已发表。
Melander 在 2003 年查找了在获得营销授权过程中提交给瑞典药品监管机构的关于五种抗抑郁药的所有 42 项试验:所有 21 项具有显著结果的研究都已发表;只有 81% 的未发现益处的研究已发表。
Rising 等人在 2008 年发现了更多我们将稍后剖析的扭曲的撰写:他们查找了两年内批准的药物的所有试验。在 FDA 的结果摘要中,一旦可以找到这些摘要,就有 164 项试验。结果有利的试验在学术论文中发表的可能性是结果不利的试验的整整四倍。最重要的是,一旦出现在学术文献中,四项结果不利的试验就发生了改变,转而支持该药物。
如果您愿意,您可以查看会议演示文稿:大量研究在会议上展示,但我们目前最好的估计是,只有大约一半的研究最终出现在学术文献中。仅在会议上展示的研究几乎不可能找到或引用,而且特别难以评估,因为关于研究中使用的具体方法的信息很少(通常只有一段话)。正如您很快就会看到的,并非每项试验都是对治疗方法的公平测试。有些可能会因设计而产生偏差,因此这些细节很重要。
关于会议论文发生了什么情况的最新系统综述是在 2010 年完成的,它发现了 30 项独立的研究,这些研究调查了阴性会议演示文稿——涉及美学、囊性纤维化、肿瘤学和急诊室等不同领域——是否会在成为成熟的学术论文之前消失。绝大多数情况下,不讨人喜欢的结果更有可能消失。
如果您非常幸运,您可以追踪到在试验开始之前公开记录其存在的一系列试验列表,可能是在为探索该问题而建立的注册系统上。从制药行业来看,直到最近,您都很幸运能在公共领域找到这样的列表。对于公共资助的研究,情况略有不同,在这里我们开始学习一个新的教训:尽管绝大多数试验是由行业进行的,结果是他们为社区定下了基调,但这种现象并不局限于商业领域。
到 1997 年,已经有四项研究被纳入关于这种方法的系统综述中。他们发现,具有显著结果的研究发表的可能性是没有显著结果的研究的 2.5 倍。
1998 年的一篇论文调查了美国国立卫生研究院赞助的两个试验小组在过去十年中的所有试验,再次发现,具有显著结果的研究更有可能发表。
另一项研究调查了向芬兰国家机构通报的药物试验,发现 47% 的阳性结果已发表,但只有 11% 的阴性结果已发表。
另一项研究调查了自 1963 年以来通过眼科医院药房部门的所有试验:93% 的显著结果已发表,但只有 70% 的阴性结果已发表。
在这堆数据中提出的重点很简单:这不是一个研究不足的领域;证据已经存在于美国很长时间了,而且既不矛盾也不模棱两可。
2005 年和 2006 年的两项法国研究采取了一种新方法:他们去了伦理委员会,获得了他们批准的所有研究的列表,然后从研究人员那里了解到试验是否产生了阳性或阴性结果,最后追踪到已发表的学术论文。第一项研究发现,显著结果发表的可能性是原来的两倍;第二项研究发现,显著结果发表的可能性是原来的四倍。在英国,两位研究人员向 NHS R&D 资助的 101 个项目的所有首席研究员发送了一份问卷:这不是行业研究,但无论如何都值得注意。这产生了一个不寻常的结果:阳性和阴性论文的发表率没有统计学上的显著差异。
但仅仅列出研究是不够的。系统地收集我们目前掌握的所有证据,我们总体上看到了什么?
将所有此类研究都放在一个巨大的电子表格中,以生成关于发表偏倚的汇总数据,这并不理想,因为它们在不同领域、使用不同方法方面都非常不同。这是许多荟萃分析中的一个担忧(尽管不应夸大:例如,如果有许多试验将一种治疗方法与安慰剂进行比较,并且它们都使用相同的结局测量,那么您可能可以简单地将它们全部放在一起)。
但是您可以合理地将其中一些研究分组。来自 2010 年的关于发表偏倚的最新系统综述(上述示例取自该综述)汇集了来自各个领域的证据。十二项可比较的研究跟踪了会议演示文稿,并将它们放在一起,他们发现具有显著发现的研究发表的可能性是原来的 1.62 倍。对于从试验开始前获取试验列表的四项研究,总体而言,显著结果发表的可能性是原来的 2.4 倍。这些是我们对问题规模的最佳估计。它们是最新的,而且是具有确凿证据的。
所有这些缺失的数据不仅仅是一个抽象的学术问题:在现实世界的医学中,已发表的证据被用来制定治疗决策。这个问题触及了医生所做一切工作的核心,因此值得详细考虑它对医疗实践的影响。首先,正如我们在瑞波西汀案例中看到的那样,医生和患者被他们使用的药物的效果所误导,最终可能会做出导致本可避免的痛苦甚至死亡的决定。我们也可能选择不必要地昂贵的治疗方法,因为我们被误导地认为它们比更便宜的旧药更有效。这浪费了金钱,最终剥夺了患者获得其他治疗的机会,因为医疗保健的资金永远不是无限的。
同样值得明确的是,这些数据对医学界的每个人都是保密的,从上到下都是如此。大多数国家都有组织来创建关于新疗法的所有证据的仔细、公正的摘要,以确定它们是否具有成本效益。在英国,该组织被称为 NICE(国家健康与临床优化研究所);在德国,它被称为 IQWiG,而在美国,保险公司可能会进行自己的评估。但是这些组织都无法识别或访问研究人员或公司隐瞒的关于药物有效性的数据;他们对这些数据的合法权利并不比您或我多。事实上,正如我们将看到的,一些监管机构尽管可以访问这些信息,但却拒绝与公众或医生分享。另一些则将他们掌握的信息隐藏在混乱的壁垒之后。这是一个非同寻常且反常的情况。
因此,当医生被蒙在鼓里时,患者就会接触到较差的治疗、无效的治疗、不必要的治疗以及不必要地昂贵但并不比廉价治疗更好的治疗;政府为不必要地昂贵的治疗付费,并承担因不充分或有害治疗造成的损害的成本;而试验的个别参与者,例如 TGN1412 研究中的那些参与者,则会遭受可怕的、危及生命的折磨,导致终身伤疤,同样是完全不必要的。
与此同时,医学研究的整个项目都受到了阻碍,因为重要的阴性结果被那些可以利用它们的人所隐瞒。这影响着每个人,但在“孤儿病”领域尤其令人震惊,“孤儿病”是影响少数患者的医学问题,因为这些医学领域已经资源短缺,并且被大多数制药公司的研究部门所忽视,因为收入机会较少。研究孤儿病的人员通常会研究已在其他情况下尝试过但失败的现有药物,但这些药物对孤儿病具有理论上的潜力。如果早期关于这些药物在其他疾病中的作用的数据缺失,那么研究它们在孤儿病中的作用既更加困难也更加危险:也许它们已经被证明具有益处或作用,可以帮助加速研究;也许它们已经被证明在用于其他疾病时具有积极的危害,并且存在重要的安全信号,可以帮助保护未来的研究参与者免受伤害。没有人能告诉你。
最后,也许最可耻的是,当我们允许不讨人喜欢的数据不发表时,我们背叛了参与这些研究的患者:这些人贡献了自己的身体,有时甚至是生命,他们隐含地相信他们正在做一些创造新知识的事情,这将使未来处于与他们相同境地的其他人受益。事实上,他们的信念并非隐含的:通常这正是我们作为研究人员告诉他们的,这是一个谎言,因为数据可能会被隐瞒,而且我们知道这一点。