人工智能正 стремительно 进入患者护理领域——并可能 повысить 风险

人工智能系统不像其他医疗设备那样经过严格测试,并且已经犯下 серьезные 错误


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您将帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事能够拥有未来。


人工智能或 AI 驱动的健康产品正涌入我们的生活,从虚拟医生应用程序可穿戴传感器药店聊天机器人

IBM 夸口说其 AI 可以“超越癌症的思考能力。” 其他人则表示,阅读 X 射线片的计算机系统将使放射科医生过时。

“在我研究医学 30 多年的时间里,我没有见过任何像 AI 这样具有影响力和变革性的东西,”加利福尼亚州拉霍亚斯克里普斯研究所的心脏病专家兼执行副总裁埃里克·托波尔说。 AI 可以帮助医生解读心脏核磁共振成像头部 CT 扫描照片眼底,并有可能接管许多平凡的医疗杂务,让医生有更多时间与患者交谈,托波尔说。

甚至美国食品和药物管理局——在过去五年中批准了超过 40 种人工智能产品——也表示“数字健康的潜力简直是革命性的。”

然而,许多健康产业专家担心,基于 AI 的产品将无法达到宣传的高度。许多医生消费者权益倡导者担心,科技行业奉行“快速失败,稍后修复”的信条,将患者置于风险之中——并且监管机构在保护消费者安全方面做得不够。

斯坦福大学生物医学伦理中心儿科教授米尔德里德·乔说,AI 的早期实验提供了谨慎的理由。

乔说,在一个医院开发的系统在部署到另一个机构时经常失败。 用于数百万美国人护理的软件已被证明歧视少数族裔。 人工智能系统有时会学习根据与疾病关系较小的因素进行预测,例如使用的 核磁共振机器品牌血液检测时间或者患者是否被 牧师探望过。 在一个案例中,人工智能软件错误地得出结论,患有肺炎的人如果患有哮喘,死亡的可能性较低,这是一个可能导致医生剥夺哮喘患者所需额外护理的错误。

克利夫兰诊所心脏病学主席史蒂文·尼森说:“这种情况导致严重的健康问题只是时间问题。”

研究公司 Gartner 7 月份的一份报告总结说,仅在第三季度就吸引了 16 亿美元风险投资的医疗 AI “几乎处于过高期望的顶峰”。 “随着现实受到考验,可能会出现一个艰难的滑坡,陷入幻灭的低谷。”

当 AI 产品被引入现实世界时,现实检验可能会以令人失望的结果的形式出现。 即使是《深度医学:人工智能如何使医疗保健重焕人性》一书的作者托波尔也承认,许多 AI 产品只不过是夸大其词。“这是一个混合体,”他说。

风险投资公司 Venrock 的合伙人鲍勃·科赫等专家更加直言不讳。“大多数 AI 产品都几乎没有证据支持,”科赫说。 一些风险在 AI 系统被大量患者使用之前不会变得明显。“我们将不断发现将 AI 应用于医疗数据所带来的一系列风险和意想不到的后果,”科赫说。

托波尔说,美国销售的所有 AI 产品都没有在随机临床试验中进行过测试,而随机临床试验是医学证据的最有力来源。 在 10 月在线发表的第一个也是唯一一个 AI 系统的随机试验——该试验发现,与标准结肠镜检查相比,计算机辅助诊断的结肠镜检查发现了更多的小息肉。

根据《欧洲临床研究杂志》1 月份的一篇文章,很少有科技初创公司在同行评审期刊上发表他们的研究,同行评审期刊允许其他科学家仔细审查他们的工作。 这种“隐形研究”——仅在新闻稿或宣传活动中描述——常常夸大公司的成就。

尽管软件开发人员可能会吹嘘其 AI 设备的准确性,但专家指出,AI 模型主要在计算机上进行测试,而不是在医院或其他医疗机构中进行测试。 斯坦福医疗保健公司 AI 临床整合医疗信息主任罗恩·李说,使用未经证实的软件“可能会使患者成为不知情的豚鼠”。

学习识别数据模式的 AI 系统通常被描述为“黑匣子”,因为即使是它们的开发人员也不知道它们是如何得出结论的。 威斯康星大学麦迪逊分校法律和生物伦理学教授皮拉尔·奥索里奥说,鉴于 AI 是如此新颖——而且其许多风险尚不为人所知——该领域需要仔细的监督

然而,大多数 AI 设备不需要 FDA 批准。

科赫说:“我投资的公司中,没有一家受 FDA 法规的约束。”

2016 年国会通过的立法——并受到科技行业的拥护——豁免了许多类型的医疗软件的联邦审查,包括某些健身应用程序、电子健康记录和帮助医生做出医疗决策的工具。

根据 美国国家医学院 12 月 17 日发布的一份关于 AI 的报告,关于目前使用的 320,000 个医疗应用程序是否真的能改善健康,研究甚少

宾夕法尼亚大学佩雷尔曼医学院医学伦理学和健康政策教授以西结·伊曼纽尔说:“几乎没有[AI]产品是真正面向患者的。”

FDA 长期以来一直关注对患者构成最大威胁的设备。 消费者权益倡导者承认,某些设备——例如帮助人们计算每日步数的设备——比诊断或治疗疾病的设备需要更少的审查。

根据 2018 年《内科学年鉴》上的一项研究,即使在法律要求的情况下,一些软件开发人员也不愿意申请 FDA 批准或授权。

行业分析师表示,AI 开发人员对进行昂贵且耗时的试验兴趣不大。 技术咨询公司 Booz Allen Hamilton 的负责人,以及国家科学院报告的合著者约阿希姆·罗斯基说:“让这些公司接受将在同行评审期刊上发表的严格评估,并不是这些公司的主要关注点。” “美国的经济运作方式不是这样的。”

但西雅图艾伦人工智能研究所首席执行官奥伦·埃齐奥尼表示,AI 开发人员有经济动机来确保其医疗产品的安全。

埃齐奥尼说:“如果快速失败意味着一大群人会死亡,我认为我们不希望快速失败。” “如果有人死亡或受到重伤,包括投资者在内,没有人会高兴。”

FDA 放松 AI 标准

近年来,FDA 因允许销售危险医疗设备而受到抨击,国际调查记者同盟已将这些设备与过去十年中 80,000 人死亡和 170 万人受伤联系起来。

这些设备中的许多设备都是通过一个有争议的流程(称为 510(k) 通道)获得批准使用的,该流程允许公司在没有临床测试的情况下销售“中等风险”产品,只要这些产品被认为与现有设备相似即可。
2011 年,美国国家医学院的一个委员会得出结论,510(k) 流程存在根本性缺陷,FDA 应该废弃它并重新开始。

相反,FDA 正在使用该流程来批准 AI 设备。

根据 JAMA 11 月份的一篇文章,在 2017 年和 2018 年获得 FDA 授权的 14 种 AI 产品中,有 11 种是通过 510(k) 流程获得批准的。 该研究称,这些产品似乎都没有进行新的临床测试。 FDA 在 2018 年批准了一种 AI 设备,旨在帮助诊断肝癌和肺癌,原因是它与 20 年前批准的 成像软件 相似。 该软件本身获得批准是因为它被认为与 1976 年之前销售的产品“基本等效”。

FDA 数字健康中心设备和放射健康部门主任巴库尔·帕特尔说,今天 FDA 批准的 AI 产品在很大程度上是“锁定的”,因此它们的计算和结果在进入市场后不会发生变化。 FDA 尚未批准“未锁定”的 AI 设备,其结果可能会逐月变化,而开发人员无法预测。

为了应对 AI 产品的涌入,FDA 正在测试一种截然不同的数字设备监管方法,重点是评估公司,而不是产品。

FDA 的试点“预认证”计划于 2017 年启动,旨在“减少软件开发人员的市场准入时间和成本”,实施“最不繁重”的系统。 FDA 官员表示,他们希望与 AI 软件开发人员保持同步,后者更新其产品的频率远高于 X 射线机等传统设备的制造商。

斯科特·戈特利布在 2017 年担任 FDA 局长时表示,政府监管机构需要确保其创新产品方法“高效,并且能够促进创新,而不是阻碍创新。”

根据该计划,FDA 将对“展示质量文化和卓越组织”的公司进行预认证,这将允许他们提供关于设备的较少的前期数据

然后,经过预认证的公司可以发布具有“简化”审查或根本无需 FDA 审查的设备。 一旦产品上市,公司将负责监控自己产品的安全性并向 FDA 报告。九家公司已被选中参加试点计划:苹果、FitBit、三星、强生、Pear Therapeutics、Phosphorus、罗氏、Tidepool 和 Verily Life Sciences。

高风险产品,例如起搏器中使用的软件,仍将接受全面的 FDA 评估。 帕特尔说:“我们绝对不希望患者受到伤害”,他指出,通过预认证批准的设备可以在需要时召回。“仍然有很多保障措施到位。”

但国家健康研究中心主席戴安娜·祖克曼说,研究表明,即使是低风险和中等风险的设备也因对患者造成严重风险而被召回。 “人们可能会因某些东西在使用前未被要求证明是准确或安全的而受到伤害。”

例如,强生公司召回了髋关节植入物手术网片

致 FDA 的一系列信函中,美国医学会和其他机构质疑允许公司监控自己的绩效和产品安全的明智性。

该医生团体的董事会主席杰西·埃伦菲尔德说:“荣誉制度不是监管制度。”
10 月份致 FDA 的信函中,参议员伊丽莎白·沃伦(马萨诸塞州民主党)、蒂娜·史密斯(明尼苏达州民主党)和帕蒂·默里(华盛顿州民主党)质疑该机构确保公司安全报告“准确、及时且基于所有可用信息”的能力。

当好的算法变坏时

一些 AI 设备比其他设备经过更仔细的测试。

一种用于糖尿病眼病的人工智能驱动筛查工具在 10 个初级保健诊所的 900 名患者中进行了研究,然后于 2018 年获得批准。 制造商 IDx Technologies 与 FDA 合作了八年,以使产品达到正确状态,该公司创始人兼执行董事长迈克尔·阿布拉莫夫说。

该测试以 IDx-DR 的名义销售,筛查患者是否患有糖尿病视网膜病变(一种主要的致盲原因),并将高危患者转诊给眼科专家,由眼科专家做出明确诊断。

IDx-DR 是第一个“自主”AI 产品——一种无需医生即可做出筛查决定的产品。 该公司目前正在初级保健诊所和杂货店安装该产品,在那里,受过高中教育的员工即可操作该产品。 阿布拉莫夫的公司已采取不同寻常的措施,购买了责任保险,以承保任何患者伤害。

然而,一些旨在改善护理的基于 AI 的创新却产生了相反的效果。

例如,一家加拿大公司开发了 AI 软件,根据一个人的言语来预测其患阿尔茨海默病的风险。 对于某些患者,预测比其他患者更准确。 多伦多大学计算机科学副教授弗兰克·鲁德齐克说:“找不到合适的词语可能是因为不熟悉英语,而不是认知障碍。”

纽约西奈山医院的医生希望 AI 可以帮助他们使用胸部 X 射线片来预测哪些患者患肺炎的风险较高。 尽管该系统根据在西奈山拍摄的 X 射线片做出了准确的预测,但在其他医院拍摄的图像上进行测试时,该技术却失败了。 最终,研究人员意识到,计算机仅仅学会了区分该医院的便携式胸部 X 射线片(在患者床边拍摄)与放射科拍摄的胸部 X 射线片。 医生倾向于对病情严重到无法离开房间的患者使用便携式胸部 X 射线片,因此这些患者患肺部感染的风险更高也就不足为奇了。

谷歌旗下公司 DeepMind 开发了一款基于 AI 的移动应用程序,可以提前 48 小时预测哪些住院患者将发展为急性肾功能衰竭DeepMind 网站上的一篇博文将该系统描述为“游戏规则改变者”,该系统已在伦敦一家医院使用。 但是,根据 7 月份《自然》杂志上的一项研究,AI 系统还为每个正确结果产生了两次误报Saurabh Jha是宾夕法尼亚大学医院放射学副教授,他说,这或许可以解释为什么患者的肾功能没有改善。 Jha 说,早期发现严重肾脏问题可能带来的任何好处都可能被高“过度诊断率”所冲淡,在这种情况下,AI 系统标记了不需要治疗的临界肾脏问题。 谷歌对 Jha 的结论未予置评。

Jha 说,假阳性会促使医生开出不必要的检查或拒绝推荐的治疗方法,从而损害患者。 例如,担心患者肾脏的医生可能会停止开具布洛芬(一种通常安全的止痛药,对肾功能有轻微风险),而转而开具阿片类药物,阿片类药物会带来严重的成瘾风险。

正如这些研究表明的那样,斯坦福大学的乔说,在计算机实验室中取得令人印象深刻的结果的软件在实时测试时可能会失败。 这是因为疾病比许多计算机科学家预期的要复杂得多,而医疗保健系统也远比他们预期的要失调得多。

乔说,许多 AI 开发人员梳理电子健康记录,因为它们包含大量详细数据。 但这些开发人员通常没有意识到他们正在一个严重损坏的系统之上构建。 电子健康记录是为计费而非患者护理而开发的,并且充满了错误或数据缺失

KHN 的一项调查(于 3 月份发布)发现,患者的用药清单、实验室检查和过敏症中有时存在危及生命的错误。

考虑到所涉及的风险,倡导更广泛地获得医疗保健的非营利组织 Lown Institute 的心脏病专家兼总裁维卡斯·赛尼说,医生需要介入以保护患者的利益。

赛尼说:“虽然企业家的工作是放眼长远、承担风险,但医生的工作是保护他们的患者。”

凯撒健康新闻 (KHN) 是一家报道健康问题的非营利新闻服务机构。 它是凯撒家庭基金会的一个编辑上独立的计划,与凯撒永久医疗集团无关。

Liz Szabo 是一位资深的健康和科学记者,曾在今日美国和其他新闻编辑室工作过。

更多作者:Liz Szabo

KFF 健康新闻,前身为凯撒健康新闻 (KHN),是一个全国性新闻编辑部,负责制作关于健康问题的深度新闻报道,并且是 KFF 的核心运营计划之一——KFF 是健康政策研究、民意调查和新闻报道的独立来源。

更多作者:KFF 健康新闻
© . All rights reserved.