从设备和诊断中消除偏见可以拯救生命

新的公式、设备和工具正在消除医疗诊断中的历史偏见

Illustration of three doctors poking at an imagined organ

路易莎·荣格

本文是“创新领域:健康公平解决方案”专题报道的一部分,这是一份编辑上独立的特别报告,由武田制药公司提供资金支持制作。

M梅兰妮·霍尼格正在教一年级医学生如何评估肾功能,这时其中一位学生卡梅伦·纳特举手提问。他问道,为什么诊断算法中要对黑人患者进行调整?在美国,黑人患肾病和肾衰竭的比率较高,而且与白人相比,获得肾移植的可能性较低,但这种调整却让人觉得黑人的肾功能比其他种族具有相同检测结果的人更好

好问题,霍尼格心想,她是一位在波士顿贝斯以色列女执事医疗中心工作的肾脏专科医生。她从未想过这可能是为什么。“我说,‘你说得对。这没有任何道理,’”霍尼格回忆起2016年的课堂对话时说道。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保未来能够继续报道关于塑造我们当今世界的发现和想法的有影响力的故事。


这种肾功能值,称为估计肾小球滤过率 (eGFR),有助于医生确定何时将患者转诊给专科医生,何时开始透析,何时患者有资格加入肾移植等待名单,以及他们的名字在该名单上的位置。为黑人患者调整算法降低了他们获得治疗和移植的机会

医生依赖的方程式和仪器充满了历史偏见。长期以来,医学一直将种族视为提供关于疾病潜在生物学和遗传学重要信息的依据,这种策略对诊断和治疗产生了巨大影响。人们仅仅因为肤色而被错失肾移植机会,被拒绝治疗,以及疾病诊断晚于必要时间。

种族是一种社会建构,它很少揭示祖先信息。种族群体内部的遗传变异比群体之间更大。“在大型数据集中发现的种族差异很可能经常反映种族主义的影响——也就是说,在美国成为黑人的经历,而不是黑人本身,”研究人员在2020年《新英格兰医学杂志》上发表的一篇文章中写道,该文章概述了种族调整算法的危害。

为了消除这种偏见,研究人员正在改变算法和仪器,并寻找新的模型来减少差距。

K肾脏通过称为肾小球的微小结构从血液中过滤废物和多余的水分。直接测量这些肾小球的功能是可能的,但很麻烦,因此医生转而依赖血液中一种称为肌酐的分子水平来估计肾小球滤过率 (GFR)。肌酐是肌肉产生的废物,也是蛋白质代谢的副产品。当肾脏功能良好时,它们会滤出肌酐;如果肾脏开始衰竭,肌酐水平就会升高。对于实验室来说,测量这种分子既容易又廉价。*

第一个评估肾功能的方程式是在 1970 年代开发的,它依赖于年龄、性别、体重和血液中的肌酐水平。但该公式并不精确。因此,在 1990 年代后期,一组研究人员着手开发一个更准确的公式。他们使用了来自一项关于 1,600 多人的肌酐和 GFR 研究的现有数据,然后将这两项测量值关联起来。该团队研究了 16 种可能影响这种关系的不同因素。(例如,随着年龄的增长,我们的肌肉量会减少,因此老年人的肌酐水平低于年轻人。)作者注意到,对于任何给定的 GFR,黑人的肌酐水平高于白人。为什么会这样尚不清楚。他们推测,可能是因为黑人的肌肉量更高。研究人群中只有 12% 是黑人,但这种差异感觉太大了,不容忽视。

为了解释这种差异,研究人员为黑人患者添加了一个调整项:高达 1.21 的乘法因子,这实际上将他们的估计肾功能夸大了高达 21%。2009 年,研究人员发布了一个更新的方程式,但黑人校正因子仍然存在,尽管降低了,高达 1.16。“我们一直认识到,种族不是非洲裔美国人在 GFR 和肌酐之间关系中与非裔美国人不同的生物学过程,”安德鲁·莱维后来解释说,他曾致力于开发这两个方程式,后来解释说。但“它代表了重要的东西。”

“实验室报告的写法是,如果你的肌酐是 4.0,你的肾功能是 19%。哦,除非你是非裔美国人;那么就是 22%,”贝斯以色列女执事医院的肾脏病专家玛莎·帕夫拉基斯说。“这毫无意义。” 对于肾脏健康的人来说,微小的差异无关紧要。但是,当肾功能下降时,eGFR(随着血液肌酐水平升高而降低)变得至关重要。这个数字有助于确定患者是否被转诊给肾脏病专家、诊断出肾脏疾病或被认为有资格加入肾移植等待名单。

“移植名单上的一半黑人患者因为这个项目获得了额外的优先权。”

——玛莎·帕夫拉基斯贝斯以色列女执事医疗中心

霍尼格开始与哈佛医学院种族公正联盟的一个小组学生合作,游说取消校正因子,2017 年,贝斯以色列女执事医疗中心成为第一个这样做的医疗中心。其他地方的努力基本上停滞不前,直到乔治·弗洛伊德、艾哈迈德·阿伯里和布伦娜·泰勒三位黑人美国人的死亡事件成为全国新闻。帕夫拉基斯说,在他们的遇害事件发生后,关于种族问题的讨论在整个医学界蔓延开来。

随着抗议活动在全国各地爆发,许多主要大学的医学生和教职员工开始散发请愿书,呼吁停止在 eGFR 中使用种族校正。一些主要的学术医疗系统开始从方程式中删除种族因素,但他们的方法并不一致。扎克伯格旧金山综合医院和创伤中心的医学主任尼尔·鲍厄和其他专家担忧地关注着这些变化。诊断肾脏疾病没有统一的方法。“你可能在一家医院被诊断出患有肾脏疾病。你走到街对面的[另一家医院],你就不会患有肾脏疾病,”鲍厄说。“那简直是一片混乱。”

2020 年夏天,国家肾脏基金会和美国肾脏病学会成立了一个特别工作组,以评估如何最好地向前推进。“他们认为我们会在一夜之间解决这个问题,但我们花了大约 10 到 11 个月才完成这项工作,”担任特别工作组联合负责人的鲍厄说。最终,他们选择了一个使用相同 2009 年数据但消除了种族作为变量的方程式,然后将曲线重新拟合到整个数据集。

器官获取和移植网络 (OPTN) 也在进行关于种族问题的讨论,该网络管理已故捐赠者的移植。肾脏等待名单很长。患者必须满足某些标准才能有资格加入;这些标准在不同的移植中心可能有所不同,但所有候选人的 eGFR 必须为 20% 或更低。而且由于 eGFR 校正因子,黑人患者需要比其他种族的人更高的肌酐水平才能通过该阈值。“没有人提出这个公式的人会说,让我们把黑人排除在名单之外。但实际上,这就是结果,”帕夫拉基斯说。

2022 年 7 月,器官分配中明确禁止使用种族变量。帕夫拉基斯认为这只是第一步。她想帮助已经在名单上的黑人患者以及之前因肾功能数值而被拒绝加入名单的患者。

2023 年 1 月,OPTN 决定移植中心应回顾名单上的黑人患者的实验室报告,并使用种族中性方程式重新计算他们的 eGFR,以查看他们是否应该被转诊进行移植。“基本上,移植名单上的一半黑人患者因为这个项目获得了额外的优先权,”帕夫拉基斯说。

帕夫拉基斯承认,这一改变并不能解决肾脏分配中的所有差距。但她也认为这是恢复性司法。“这并不完美,”她说,“但我认为这可能是目前存在的修复种族差距的最大例子。”


肺科医生一直在努力解决类似的问题。为了评估肺功能,医生会要求患者对着一种称为肺活量计的设备吹气,该设备测量一个人可以呼出的最大空气量以及他们在一秒钟内可以从肺部呼出多少空气。肺活量计将这些数字与“正常”肺功能的参考值进行比较。结果有助于医生诊断肺气肿和慢性阻塞性肺疾病等疾病,评估这些疾病的严重程度,并监测肺功能的下降。

构成“正常”的因素因年龄、性别、身高以及直到最近,种族而异。为什么是种族?1800 年代后期和 1900 年代早期收集的数据表明,不同种族具有不同的肺活量,研究人员将这种现象归因于先天生物学,而不是社会、经济或环境因素。布朗大学研究员伦迪·布劳恩在 2015 年一篇关于种族在肺活量测定法中的历史使用的文章中写道,到 20 世纪初,肺活量在种族群体之间存在差异的想法已成为“表面上的事实”。专家们忽略的是,种族可能只是其他因素的代表,例如空气质量、营养和其他影响肺部健康和发育的因素。

当欧洲呼吸学会的全球肺功能倡议在 2012 年制定肺活量测定法的参考值时,它使用了来自 33 个国家/地区的 160,000 多个肺活量测定结果。研究人员观察到“种族群体之间肺功能的比例差异”,并决定为四个群体制定单独的值:高加索人、非洲裔美国人、北亚人和东南亚人。他们还为不属于其他类别的人使用了“其他”类别。该模型假设,与白人成年人相比,黑人成年人的肺活量小约 10% 到 15%,亚洲血统成年人的肺活量小 4% 到 6%。因此,黑人、亚洲人和白人相同的肺活量测定结果导致了对健康的不同解释。结果,某些人群的肺部疾病一直未被诊断和治疗。

按种族划分参考值在很多方面都存在问题。“我们是一个大熔炉,”明尼苏达州梅奥诊所的肺病学家亚历山大·尼文说。因此,即使存在“一组特定的基因使人们更容易或更不容易患肺功能障碍,但在当今全球化的世界中,这种基因簇也不太可能保持纯粹。”

更重要的是,尼文说,肺部不断与外界接触,并在整个童年时期和成年早期持续发育。“不可能将种族与所有其他因素分开,不幸的是,这些因素与我们社会中不同的群体不可思议地联系在一起,其中许多因素可能正在影响我们在不同社会群体中看到的肺功能变化。”

在实践中,当涉及到重要的结果时,基于种族的模型似乎并没有提高预测能力。“你无法更好地判断谁会去医院。你无法更好地判断谁会死亡。你无法更好地判断谁有严重症状,谁没有。在某些情况下,你实际上会通过添加种族来降低你的预测能力,”加州大学旧金山分校的肺和重症监护医师亚伦·鲍说。

2023 年,全球肺功能倡议用种族中性方程式取代了基于种族的方程式。同年,美国胸科学会和欧洲呼吸学会建议所有医疗保健提供者都改用新公式。

这种转变正在发生,研究人员才刚刚开始揭示这种转变的广泛影响。“长话短说,影响深远,”哈佛医学院的生物信息学研究员阿琼·曼莱说。肺功能有助于确定残疾赔偿金、某些职业的候选资格、肺移植的优先权等等。曼莱和他的同事发现,美国约有 1000 万人的诊断或疾病严重程度将被重新分类。残疾赔偿金可能会增加超过 10 亿美元。这种变化并非总是有利的。新的诊断可能会使某人没有资格从事某些工作,例如消防员。患有肺癌的黑人可能不会被认为是手术的合适人选,因为他们的肺功能可能太差,无法切除部分肺部。“基本上,这些重新分类都附带权衡,”曼莱说。

新方程式与原始公式来自相同的 2012 年数据,它并不完美。“我们有点确定我们现在拥有的种族中性方程式是目前最好的选择,并且知道未来可能会出现更好的方程式,”鲍说。


曼莱一直在思考传统算法如何操作种族,调整任何特定患者的“正常”构成,以及如何将这些算法的经验教训融入到生产更复杂的机器学习算法中。“它们可能存在偏见,并且它们可能会传播完全相同的基于种族的医学,”他说。“但它们是一种工具,这种工具也可以反向使用:减轻现有的差距,并有可能减少医疗保健系统中的现有偏见。”

人工智能如何帮助改善健康公平的一个例子在膝盖疼痛差异的研究中显而易见。之前的研究表明,黑人通常比其他种族的人报告的关节炎引起的膝盖疼痛更剧烈。但通常这种疼痛无法用 X 光片中可见的结构性损伤来解释。因此,它经常被忽视或归因于心理压力等外部因素。

康奈尔大学研究机器学习和医疗保健不公平现象的艾玛·皮尔森和她的同事想了解膝盖本身是否可能存在可以解释这种疼痛差异的物理迹象。他们使用了来自 4,000 多名患有骨关节炎或有患病风险的人的膝盖 X 光片和患者疼痛评分来训练机器学习模型。

令人惊讶的是,该模型对疼痛的预测优于传统的关节炎评分系统。皮尔森特别指出,“它似乎正在捕捉那些不成比例地影响服务不足患者的因素。” 这些因素可能是什么尚不清楚,皮尔森强调需要谨慎。“总的来说,这些模型的能力往往超过了我们理解它们如何实现这些能力的能力,”她说。


有时,诊断仪器会引入偏见。例如,医生用来测量血液中氧气水平的指尖夹通过测量不同波长的光的吸收来估计血氧水平。但是,这种称为脉搏血氧仪的设备往往会高估肤色较深的人的氧饱和度。

研究人员几十年前就知道了这个问题,但制造商并没有感到太多压力来解决这个问题。这种影响相对较小,并且在低氧饱和度下最为突出。“这种差异可能被正确地认为在生理上无关紧要,”加州大学旧金山分校麻醉师迈克尔·利普尼克说,他领导一个研究项目来评估脉搏血氧仪的性能。“如果某人的氧饱和度真的比真实值高或低 1% 甚至 2%,则不会造成伤害。”

然而,当新冠疫情使数百万人患病时,微小的偏见产生了巨大的影响。“临床决策是根据这个数字做出的,”利普尼克说。2023 年,一个研究小组查看了疫情最初 19 个月内 24,000 多名因新冠住院患者的健康记录。他们重点关注那些同时进行了脉搏血氧仪读数和动脉血气测试(测量血液中氧饱和度的金标准)的人。脉搏血氧仪读数始终高估了黑人和西班牙裔患者的氧气水平。黑人患者也比白人患者更有可能因不准确的脉搏血氧仪读数而被低估对新冠疗法的需求。这种疏忽具有临床后果:被忽略新冠治疗平均导致护理延迟一小时,并增加再次入院的风险。

利普尼克是开放式血氧仪项目的一部分,该项目一直在不同人群中测试不同的脉搏血氧仪,以了解它们的实际性能。他和他的同事已经看到了一系列变异性。大多数设备在肤色较深的人身上使用时往往表现更差,但有些设备表现更好。

研究人员正在努力开发更准确的工具,监管机构正在考虑更大规模的、具有各种肤色的人群的测试。利普尼克想要更好的脉搏血氧仪,但担心某些修复可能会增加成本。“这是一个很大的担忧,尤其是在中低收入国家,世界上大多数肤色较深的人都生活在这些国家,”他说。

利普尼克说,在短期内,临床医生应该重新思考他们如何使用来自脉搏血氧仪的数据。“它给出一个数字,我们假设这个数字是真理。” 实际上,这个数字可能偏差高达 5%。如果医生认识到误差率,他们就可以做出旨在最大限度地减少医疗保健差距的决策。“我认为很多解决方案将在于我们如何使用这项技术,”他说。

帕夫拉基斯也认为临床医生需要进行更多的批判性思考。她对自己多年来依赖 eGFR 方程式而没有停下来仔细考虑其种族校正的理由感到沮丧。“当我们被教导这个公式时,我们想,‘这是数据驱动的。这是来自一项研究。这一定是准确的,’”她说。然而,循证并不总是意味着公平,而这才是真正的目标。霍尼格的学生和其他认识到偏见的人正在使所有人的医疗保健变得更好。

*编者注(2024 年 12 月 31 日):此段在发布后进行了编辑,以更正对肌酐的描述。

© . All rights reserved.