机器人放射科医生的崛起

深度学习算法正在以无与伦比的视觉审视 MRI 和 X 射线,但是当它们犯错时,该责怪谁呢?

哈里·坎贝尔

当雷吉娜·巴兹莱在 40 岁出头进行常规乳房 X 光检查时,图像显示她的乳房组织中有一系列复杂的白色斑点。这些标记可能是正常的,也可能是癌变的——即使是最好的放射科医生也常常难以区分。她的医生认为这些斑点并不立即令人担忧。事后看来,她说,“我已经得了癌症,但他们没有看到。”

在接下来的两年里,巴兹莱接受了第二次乳房 X 光检查、乳房 MRI 和活组织检查,所有这些检查都继续产生模棱两可或相互矛盾的结果。最终她在 2014 年被诊断出患有乳腺癌,但获得诊断的道路令人难以置信地沮丧。“你怎么做三项测试并得到三个不同的结果?”她想知道。

巴兹莱接受了治疗并康复良好。但她仍然对阅读乳房 X 光片的不确定性可能会延误治疗感到震惊。“我意识到我们在当前方法中是多么缺乏保护,”她说,因此她做出了一个改变职业生涯的决定:“我绝对必须改变它。”


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


巴兹莱是麻省理工学院的计算机科学家,以前从未研究过健康。她的研究使用机器学习技术——一种人工智能形式——进行自然语言处理。但她一直在寻找新的研究方向,并决定与放射科医生合作开发机器学习算法,利用计算机卓越的视觉分析来发现乳房 X 光片中人眼可能遗漏的细微模式。

在接下来的四年里,该团队教会了一个计算机程序分析来自约 32,000 名不同年龄和种族的女性的乳房 X 光片,并告诉它哪些女性在扫描后五年内被诊断出患有癌症。然后,他们对另外 3,800 名患者进行了计算机匹配能力的测试。他们由此产生的算法于去年五月发表在《放射学》杂志上,在预测癌症或无癌症方面,比诊所中常用的方法显着更准确。当巴兹莱的团队在她 2012 年的乳房 X 光片(她的医生已清除)上运行该程序时,该算法正确地预测,与 98% 的患者相比,她在五年内患乳腺癌的风险更高。

人工智能算法不仅能发现人眼难以察觉的细节。它们还可以开发全新的医学图像解读方式,有时以人类无法理解的方式。众多研究人员、初创公司和扫描仪制造商都在设计人工智能程序,他们希望这些程序可以提高诊断的准确性和及时性,为缺乏放射科医生的发展中国家和偏远地区提供更好的治疗,揭示生物学和疾病之间的新联系,甚至有助于预测一个人何时死亡。

人工智能应用正在快速进入诊所,医生们对这项技术既兴奋于它可能减轻他们的工作量,又担心失去工作给机器。算法还引发了前所未有的问题,即如何监管一台不断学习和变化的机器,以及如果算法诊断错误,该由谁来承担责任。尽管如此,许多医生对人工智能程序的前景感到兴奋。“如果这些模型能够得到充分的审查,并且我们能够提高对它们工作原理的理解水平,这可以帮助提高所有人的医疗保健水平,”斯坦福大学放射科医生马修·伦格伦说。

“一个非常非常热门的话题”

使用计算机阅读放射扫描的想法并不新鲜。在 20 世纪 90 年代,放射科医生开始使用一种名为计算机辅助诊断 (CAD) 的程序来检测乳房 X 光片中的乳腺癌。这项技术被誉为革命性的,诊所迅速采用了它。但事实证明,CAD 比现有方法更耗时且更难使用,并且根据一些研究,使用 CAD 的诊所比不使用 CAD 的诊所犯了更多的错误。费城杰斐逊大学放射科医生维杰·拉奥说,这次失败让许多医生对计算机辅助诊断产生了怀疑。

然而,在过去的十年中,计算机视觉取得了飞跃式的进步——在人脸识别等日常应用和医学领域都是如此。这一进步很大程度上归功于深度学习方法的开发,在这种方法中,计算机被赋予一组图像,然后任其在图像之间建立自己的联系,最终形成一个关联网络。在医学成像中,例如,这可能涉及告诉计算机哪些图像包含癌症,并让它自由地寻找那些图像中常见的但在无癌图像中不存在的特征。

人工智能技术在放射学中的开发和应用迅速蔓延。“去年,在我参加的每一次大型会议上,主题都是人工智能和成像,”北美放射学会前任主席拉奥说。“显然,这是一个非常非常热门的话题。”

美国食品和药物管理局表示,它没有保存已批准的人工智能产品清单。但加利福尼亚州拉霍亚斯克里普斯研究所的数字医学研究员埃里克·托波尔估计,该机构每月批准不止一种医学影像算法。市场情报公司 Reaction Data 在 2018 年进行的一项调查发现,84% 的美国放射科诊所已经采用或计划采用人工智能程序。该领域在中国发展尤其迅速,中国有 100 多家公司正在为医疗保健设计人工智能应用。

“现在是进入这个市场的绝佳时机,”特拉维夫初创公司 Aidoc 的首席执行官埃拉德·瓦拉赫说。该公司开发算法来分析 CT 扫描中的异常情况,并将这些患者移至医生优先列表的顶部。Aidoc 还跟踪医生使用该程序的频率以及他们花多少时间来质疑其结论。“最初他们持怀疑态度,但两个月后他们就习惯了并且非常信任它,”瓦拉赫说。

节省时间对于挽救患者至关重要。最近一项关于胸部 X 射线检查肺塌陷的研究发现,放射科医生将他们订购的扫描中有 60% 以上标记为高优先级,这表明他们可能花费数小时在处理不严重的病例,然后才处理那些真正紧急的病例。“我交谈过的每位医生都有一个因肺塌陷而失去患者的故事,”总部位于波士顿的 GE 医疗集团人工智能副总裁兼总经理卡莉·约德说,该公司是主要的医疗影像设备制造商之一。去年 9 月,FDA 批准了一套人工智能工具,这些工具现在将嵌入 GE 扫描仪中,自动标记最紧急的病例。

由于计算机可以处理海量数据,因此它们可以执行超出人类能力的分析任务。例如,谷歌正在利用其计算能力开发人工智能算法,将肺部的二维 CT 图像构建成三维肺部,并查看整个结构以确定是否存在癌症。相比之下,放射科医生必须单独查看这些图像,并尝试在脑海中重建它们。谷歌的另一种算法可以做放射科医生根本无法做到的事情:通过查看患者的视网膜扫描,检测与血压、胆固醇、吸烟史和衰老相关的细微变化,从而确定患者患心血管疾病的风险。“那里存在超出先前已知范围的潜在信号,”谷歌产品经理丹尼尔·谢说。

黑匣子问题

人工智能程序最终可能会揭示生物学特征和患者结局之间全新的联系。《JAMA Network Open》杂志 2019 年发表的一篇论文描述了一种深度学习算法,该算法在来自两项大型临床试验中招募的 85,000 多名受试者的胸部 X 射线片上进行了训练,这些试验跟踪了他们 12 年以上。该算法对每位患者在此期间的死亡风险进行了评分。研究人员发现,人工智能归类为高风险类别的人中有 53% 在 12 年内死亡,而低风险类别的人中只有 4% 死亡。该算法没有关于谁死亡或死亡原因的信息。首席研究员、马萨诸塞州总医院放射科医生迈克尔·卢说,如果将该算法与医生的评估和其他数据(如遗传学)相结合,它可能成为评估患者健康的有用工具。

为了理解算法的工作原理,研究人员确定了算法用于计算的图像部分。有些部分,如腰围和女性乳房的结构,是有道理的,因为这些区域可以暗示某些疾病的已知风险因素。但该算法也关注患者肩胛骨下方的区域,该区域没有已知的医学意义。卢猜测,灵活性可能是寿命缩短的预测因素之一。进行胸部 X 射线检查通常需要患者拥抱机器,而无法完全环抱机器的健康状况较差的人可能会以不同的方式放置他们的肩膀。“这些不是我会从头开始想到的事情,也可能不理解,”卢说。

计算机和人类思维方式之间的脱节被称为黑匣子问题:计算机大脑在人类无法进入的模糊空间中运行的想法。专家们对于这是否会在医学成像中造成问题存在分歧。一方面,如果算法持续提高医生的表现和患者的健康,医生就不需要知道它是如何工作的。毕竟,研究人员仍然没有完全理解许多药物的作用机制,例如自 20 世纪 50 年代以来一直用于治疗抑郁症的锂。“也许我们不应该如此执着,因为人类在医学中的工作方式就像黑匣子一样,”托波尔说。“我们是否对机器提出了更高的标准?”

尽管如此,不可否认的是,黑匣子为人类与人工智能的误解提供了充足的机会。例如,西奈山伊坎医学院的研究人员对他们开发的一种用于识别肺部 X 射线片中肺炎的深度学习算法的性能差异感到非常困惑。它在西奈山产生的 X 射线片上的准确率超过 90%,但在其他机构的扫描片上的准确率要低得多。他们最终发现,该算法不仅分析图像,还考虑了每个机构肺炎的常见程度,从而计算了阳性发现的几率——这不是他们期望或希望程序做的事情。

哈佛医学院研究机器学习生物医学应用的塞缪尔·芬莱森担心诸如此类的混淆因素。他指出,人工智能训练的数据集可能存在开发者未能考虑到的偏差。例如,在急诊室拍摄的图像或在半夜拍摄的图像可能比在常规检查期间拍摄的图像更可能显示病人。算法也可能学会查看指示先前健康问题的疤痕或医疗器械植入物,并断定没有这些标记的人没有患上这种疾病。甚至机构标记图像的方式也可能使人工智能算法感到困惑,并阻止模型在具有不同标记系统的另一个机构中良好地运行。“如果你天真地在[算法]在一个地点、一个时间和一个人群的医院进行训练,你不会意识到模型正在考虑的所有数千个小因素。如果其中任何一个发生变化,你可能会陷入困境,”芬莱森警告说。

芬莱森说,解决方案是使用来自多个地点和不同患者群体的数据来训练算法,然后在新的患者群体中进行前瞻性测试——不进行任何修改。但很少有算法以这种方式进行测试。根据托波尔最近在《自然医学》杂志上发表的评论,在数十项声称人工智能比放射科医生表现更好的研究中,只有少数研究是在与其开发人群不同的人群中进行测试的。“算法非常非常脆弱,”杜克大学计算机科学家辛西娅·鲁丁说。“如果你尝试在训练集[图像]之外使用一个算法,它并不总是有效。”

随着研究人员意识到这个问题,更多在新环境中进行的前瞻性研究可能会在酝酿之中。巴兹莱的团队最近完成了在瑞典卡罗林斯卡学院对 10,000 张扫描片进行的乳房 X 光片人工智能测试,发现它在那里的表现与在马萨诸塞州一样好。该小组现在正在与台湾和底特律的医院合作,在更多不同的患者群体中对其进行测试。巴兹莱说,该团队发现,目前评估乳腺癌风险的标准在非裔美国女性中远不如白人女性准确,因为这些标准主要是使用白人女性的扫描片制定的:“我认为我们真的有能力改变这种可悲的状况。”

即使人工智能的结论在医学上是相关的,黑匣子仍然从法律角度提出了一些担忧。如果人工智能诊断错误,可能很难确定是医生还是程序有过错。“医疗保健中会发生很多不好的事情,你并不一定知道为什么会发生不好的事情,”密歇根大学的健康法专家尼科尔森·普赖斯说。如果人工智能系统导致医生做出不正确的诊断,医生可能无法解释原因,并且公司关于测试方法的数据很可能属于严密保护的商业秘密。

医疗人工智能系统仍然太新,尚未在医疗事故诉讼中受到挑战,因此尚不清楚法院将如何确定责任以及应要求何种透明度。

构建黑匣子算法的趋势让鲁丁感到沮丧。这个问题来自于大多数医学算法都是通过改编为其他类型的图像分析开发的深度学习工具而构建的。“没有理由不能构建一个可以自我解释的机器人,”她坚称。但是,从头开始构建透明算法比重新利用现有的黑匣子算法来查看医学数据要困难得多。这就是为什么鲁丁怀疑大多数研究人员让算法运行,然后尝试在稍后理解它是如何得出结论的原因。

鲁丁正在开发透明的人工智能算法,该算法分析乳房 X 光片以查找可疑肿瘤,并不断告知研究人员它们正在做什么。但她的研究因缺乏可用于训练算法的可用图像而受阻。鲁丁说,公开可用的图像往往标记不佳或使用不再使用的旧机器拍摄,而且如果没有庞大而多样化的数据集,算法往往会拾取混淆因素。

黑匣子以及人工智能算法从经验中学习的能力也给监管机构带来了挑战。与始终以相同方式工作的药物不同,机器学习算法会随着时间的推移而变化和改进,因为它们可以访问更多患者数据。由于算法从如此多种输入中提取含义,看似无害的更改(例如医院的新 IT 系统)可能会突然破坏人工智能程序。“机器可能会像人类生病一样生病,并且可能会感染恶意软件,”托波尔说。“当你的手中掌握着别人的生命时,你不能信任算法。”

去年 4 月,FDA 提出了一套管理随时间推移而演变的算法的指南。其中包括期望生产者密切关注他们的算法如何变化,以确保它们继续按设计工作,并要求他们如果发现可能促使重新评估的意外变化,则通知该机构。该机构还在制定最佳生产规范,并可能要求公司明确说明他们对算法可能如何变化的期望以及如何管理这些变化的协议。“我们需要理解,没有一种尺寸适合所有情况,”FDA 数字健康主管巴库尔·帕特尔说。

机器会取代医生吗?

人工智能的局限性应该让担心机器抢走他们工作的放射科医生放心。2012 年,技术风险投资家兼太阳微系统公司联合创始人维诺德·科斯拉预测算法将取代 80% 的医生,这让医学界人士感到震惊,最近他声称 10 年后仍在执业的放射科医生将“杀死患者”。拉奥说,这些言论在放射学领域引起了恐慌和强烈反对。“我认为炒作正在制造很多期望。”

但这种担忧也产生了实际影响。2015 年,美国只有 86% 的放射科住院医师职位被填补,而前一年为 94%,尽管这些数字在过去几年中有所改善。根据 2018 年对 322 名加拿大医学生的调查,68% 的人认为人工智能会减少对放射科医生的需求。

尽管如此,大多数专家和人工智能制造商都怀疑人工智能会在短期内取代医生。“人工智能解决方案在非常擅长做一件事情方面变得非常出色,”瓦拉赫说。但由于人类生物学是复杂的,他说,“你通常必须拥有不止一项真正擅长的人类。”换句话说,即使算法在诊断特定问题方面更好,将其与医生的经验和对患者个人病史的了解相结合将导致更好的结果。

一种可以很好地完成单项任务的人工智能可以将放射科医生从繁琐的工作中解放出来,让他们有更多时间与患者互动。“他们可以从地下室里走出来,那里是他们生活在黑暗中的地方,”托波尔说。“我们在医学中需要的是更多的人际接触和联系。”

尽管如此,拉奥和其他人认为,由于人工智能算法,放射科医生接受的工具和培训,包括他们的日常工作,将在未来几年发生巨大变化。“人工智能不会取代放射科医生,但使用人工智能的放射科医生会取代不使用人工智能的放射科医生,”斯坦福大学放射科医生柯蒂斯·朗洛茨说。

然而,也有一些例外。2018 年,FDA 批准了第一个可以在无需医生查看图像的情况下做出医疗决策的算法。该程序由爱荷华州科勒尔维尔的 IDx Technology 开发,用于查看视网膜图像以检测糖尿病视网膜病变,根据该公司的数据,准确率达到 87%。IDx 首席执行官迈克尔·阿布拉莫夫表示,由于没有医生参与,该公司已承担任何医疗错误的法律责任。

在短期内,人工智能算法更有可能协助医生而不是取代他们。例如,在发展中国家工作的医生可能无法获得与美国或欧洲主要医疗机构相同的扫描仪或可以解读扫描结果的训练有素的放射科医生。随着医学变得越来越专业化,并且越来越依赖图像分析,富裕地区和贫困地区提供的护理标准之间的差距正在扩大,伦格伦说。运行算法可能是缩小差距的一种廉价方法,甚至可以在手机上完成。

伦格伦的小组正在开发一种工具,使医生可以使用手机拍摄 X 射线胶片的照片——而不是富裕国家标准的数字扫描——并在照片上运行算法,检测肺结核等问题。“它没有取代任何人,”他说——许多发展中国家根本没有放射科医生。“我们正在增强非放射科医生的能力,将专业知识带到他们的指尖。”

人工智能的另一个短期目标可能是检查医疗记录,以确定患者是否首先需要扫描,拉奥说。许多医学经济学家认为影像学被过度使用——仅在美国每年就进行超过 8000 万次 CT 扫描。尽管大量数据有助于研究人员使用它来训练算法,但扫描非常昂贵,并且可能使患者暴露于不必要的辐射量。同样,朗洛茨补充说,算法有一天可以在患者仍在扫描仪中时分析图像并预测最终结果,从而减少获得良好图像所需的时间和辐射暴露。

巴兹莱最终表示,当人工智能作为一位目光敏锐的合作伙伴,帮助解决医生无法单独检测和解决的问题时,它将是最有用的。“如果存在方便且可描述的模式,”她指出,“人类将已经能够做到这一点。”她亲身经历过,在很多情况下,情况并非如此。

萨拉·里尔登 是一位常驻蒙大拿州博兹曼的自由生物医学记者。她曾是《自然》、《新科学家》和《科学》杂志的专职记者,并拥有分子生物学硕士学位。

更多作者 萨拉·里尔登 的文章
大众科学杂志第 322 卷第 2 期本文最初以 “机器人放射科医生的崛起” 为标题发表于 大众科学杂志 第 322 卷第 2 期 (), 第 0 页
doi:10.1038/scientificamerican0220-S8
© . All rights reserved.