在美国,医生办公室和医院每年订购数十亿次的实验室测试,以测量从血液中的胆固醇水平到被认为会增加患阿尔茨海默病风险的基因的存在等各种指标。医生和患者通常认为他们可以信任这些测试的结果。大多数时候他们也的确可以。但并非所有实验室测试都同样可靠,错误的测试可能会产生严重的后果。有时它们无法检测出危及生命的疾病。有时它们会指示一个不存在的问题,这可能导致不必要的,甚至可能是有害的治疗。
由于监管历史上的一个怪癖,许多此类测试不受与其他用于识别疾病风险或明确诊断病症的工具相同的医疗标准的约束。这些被称为实验室研发测试,或LDTs,定义为由设计它们的同一家实验室制造和解读的测试——与例如,旨在被各地医生办公室的各种人员使用和理解的快速链球菌测试形成对比。大多数人第一次接触LDT是在体检时,当医生面临无法通过广泛可用的血液测试解决的诊断难题时。
问题是,专家认为许多这些测试没有用处,有些甚至可能通过让太多人相信他们患有罕见疾病而造成伤害,诊断出他们患有一种迄今为止尚未被证明有害的疾病,或者让他们安心,认为自己是健康的,而事实上,没有科学可信的方法来知道情况是否确实如此。“我们倾向于认为实验室测试是最终的真理,”哈佛医学院病理学助理教授拉米·阿尔瑙特说。“但没有哪项测试是百分之百准确的,而且其中一些LDT根本没有医学用途。”
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
美国食品和药物管理局 (FDA) 正在采取措施恢复人们对实验室研发测试可靠性的信心。2014年,该机构发布了拟议指南,首次将这些措施置于联邦监管之下——包括在测试上市前必须向其提交有效性证据。尽管FDA不愿对本文发表评论,但多位业内人士认为,最终裁决可能很快开始生效,这让一些实验室主任感到懊恼,他们表示,这些要求可能会增加成本并阻碍医疗实践。
不断扩大的漏洞
25年前,LDT在医疗实践中扮演的角色太小,FDA没有过多关注。只有少数几种——最著名的是用于检测宫颈癌的巴氏涂片——被广泛使用。FDA官员采取了“执法酌处权”政策,这意味着他们几乎对LDT不闻不问,而专注于那些显然更可能造成危害的工具,例如故障的心脏起搏器。
然而,在研究人员于20世纪90年代开发出新的基因工程技术后,LDT的可能性大大扩展。例如,前几代LDT寻找少量不寻常的蛋白质,而一些新兴的基因测试可以筛选人类基因组中发现的30亿个碱基对或字母中的任何数量,寻找与疾病相关的异常。此外,测试变得自动化,使LDT的设计和使用变得越来越容易。
技术的进步导致上市的LDT的数量和种类大幅增加。据一些估计,现在约有11,000家实验室提供60,000到100,000种LDT;没有人确切知道有多少,因为,当然,这些测试不必在任何地方注册。
根据当前的联邦法规,LDT享有很大的漏洞,这意味着它们不必评估其医学用途。也不要求公开有关它们的研究。创建它们的实验室确实需要满足某些科学实践的基本标准。但是,FDA不会像对大多数处方药或医疗器械那样,在医生可以开始为患者订购测试之前或之后对测试进行审查。
这个漏洞意味着,从仅提供一两项测试的小型初创公司到提供数千项测试的大型诊断实验室,各种规模的公司都可以比大多数其他类别的医疗产品更容易地开发新LDT并收取费用。随着测试数量的增加,一系列报告显示,某些测试已经通过提供误导性结果伤害了人们。
临床有效性
FDA已将20种不同类型的LDT列为特别令人担忧的,包括经常给出错误答案的莱姆病和百日咳测试,以及声称可以确定女性患卵巢癌风险的LDT,例如通过测量血液中CA 125蛋白的存在。9月份,该机构得出结论,针对这种蛋白质的筛查措施“没有被证实的益处”,并警告医生不要推荐或使用它们。
许多引起FDA愤怒的测试可能确实测量了它们声称要测量的东西。问题是,测量的物质可能不是特定医疗问题的良好指标。例如,在卵巢癌测试的情况下,在理论上,卵巢中产生的CA 125水平升高应表示存在额外的卵巢细胞——换句话说,存在肿瘤。但实际上,事实证明,许多CA 125水平高的女性并没有患卵巢癌,相反,许多患有癌症的女性CA 125水平并不高。因此,CA 125的测量结果不能被信任为对癌症进行准确诊断——然而,许多检测结果呈阳性的女性显然非常害怕患癌症的可能性,以至于她们决定切除健康的卵巢。
研究人员确定是否应将医学测试用作患者病情的指南的一种方法是应用一种有些晦涩的统计比率,称为阳性预测值,或PPV。该指标考虑了某种疾病在特定人群中可能有多常见。
通过类比可以更好地理解为什么这种考虑在确定测试的有用性方面很重要。如果你把一个带诱饵的鱼钩扔进一个装满鱼的桶里,那么绳子上的一拉就意味着你钓到了一条鱼的可能性非常高。另一方面,将同一个带诱饵的鱼钩扔进一个没有放养鱼的淡水湖中,任何给定的绳子拉动代表一条鱼的可能性就会小得多,而不是,例如,树枝。因为桶中给定体积的水的鱼比湖泊多得多,所以容器中的拉动的PPV接近100%,而未放养的湖泊中的拉动的PPV远低于100%。
这种关键的统计区别解释了FDA对一种当前卵巢筛查测试的问题,该测试的开发者声称其PPV为99.3%。然而,独立生物统计学家的更仔细分析显示,该值是根据一项单一实验计算得出的,在该实验中,一半的患者已知已患有卵巢癌——这是一个高度选择的群体,相当于医学上的放养池塘。
当研究人员使用卵巢癌在美国普通人群中的真实频率(每2,500名绝经后妇女中有一例病例)重新计算PPV时,PPV骤降至仅6.5%。换句话说,每15名从该恶性肿瘤测试中获得阳性结果的患者中,只有一人实际上患有卵巢癌。如果其他14人仅依赖这项测试,则很可能会接受不必要的手术来切除她们原本健康的卵巢,因为她们会错误地认为自己有99.3%的几率患上癌症。
改变重点
由于FDA没有资源来监管近年来上市的所有LDT,该机构计划根据特定测试的误导性或不正确结果可能造成重大危害的可能性,将其分为三类。根据新的指导方针,如果不准确的结果可能导致死亡或长期残疾,LDT将被视为高风险。此类测试将受到最严格的检查,有关它们的信息将需要输入国家数据库,制造商必须在销售之前向FDA证明其安全性和有效性。“基本上,FDA希望在允许高风险LDT上市之前看到支持性证据,”约翰·霍普金斯大学彭博公共卫生学院的医生和教授约书亚·沙夫斯坦说。
即使是这种有针对性的方法也让许多行业领导者和一些专业医学协会(包括美国医学会)感到担忧。“这实际上取决于FDA如何选择定义高风险,而目前尚不清楚,”明尼苏达州罗切斯特市梅奥医学实验室的首席医疗官柯蒂斯·汉森说,该实验室每年进行2500万次实验室测试。“高风险测试可能占当今市场上LDT的1%到10%。FDA将如何审查并找到罕见的问题案例,并以一种不会减慢进展速度的有效方式做到这一点?”
对于患者及其医生来说,问题要基本得多。他们为什么应该总是怀疑市售的医学测试是否弊大于利?