让癌症患者为艰难的决定做好准备是肿瘤医生的工作。然而,他们并不总是记得这样做。在宾夕法尼亚大学健康系统,医生会受到人工智能算法的提示,与患者讨论他们的治疗和临终偏好,该算法可以预测死亡的几率。
但这远非一劳永逸的工具。一项例行的技术检查显示,该算法在新冠肺炎疫情期间衰退,在预测谁会死亡方面下降了 7 个百分点,根据 2022 年的一项研究。
这可能产生了实际影响。埃默里大学肿瘤学家 Ravi Parikh 是该研究的主要作者,他告诉 KFF Health News,该工具数百次未能提示医生与需要它的患者发起重要的讨论——可能避免了不必要的化疗。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。
Parikh 认为,在疫情期间,许多旨在加强医疗保健的算法都减弱了,不仅仅是宾夕法尼亚大学医学中心的算法。“许多机构没有例行监控其产品的性能,”Parikh 说。
算法故障是计算机科学家和医生长期以来承认,但医院管理者和研究人员开始感到困惑的困境的一个方面:人工智能系统需要持续的监控和人员配置才能部署并保持良好运行。
本质上:您需要人员和更多机器来确保新工具不会出错。
“每个人都认为人工智能将帮助我们提高可及性和容量,并改善护理等等,”斯坦福大学医疗保健首席数据科学家 Nigam Shah 说。“所有这些都很好,但是如果它使护理成本增加 20%,那是否可行?”
政府官员担心医院缺乏资源来全面测试这些技术。“我已经广泛考察过了,”FDA 局长 Robert Califf 在最近一次关于人工智能的机构小组会议上说。“我不相信美国有一个单一的医疗系统有能力验证临床护理系统中部署的人工智能算法。”
人工智能已在医疗保健领域广泛应用。算法用于预测患者的死亡或病情恶化风险、建议诊断或分诊患者、记录和总结就诊情况以节省医生工作,以及批准保险索赔。
如果技术福音传道者是对的,这项技术将变得无处不在——并且有利可图。投资公司 Bessemer Venture Partners 已经确定了大约 20 家专注于健康的 AI 初创公司,有望在一年内实现 1000 万美元的收入。FDA 已经批准了近一千种人工智能产品。
评估这些产品是否有效具有挑战性。评估它们是否继续有效——或者是否已经开发出软件等同于垫圈 blown 或发动机泄漏——则更棘手。
以耶鲁大学医学院最近一项评估六种“早期预警系统”的研究为例,这些系统在患者可能迅速恶化时提醒临床医生。芝加哥大学的医生 Dana Edelson 说,一台超级计算机运行了几天的数据,她也是一家为该研究提供一种算法的公司的联合创始人。这个过程富有成果,显示了这六种产品在性能方面的巨大差异。
医院和供应商不容易为他们的需求选择最佳算法。普通医生没有超级计算机,也没有人工智能的《消费者报告》。
美国医学协会前任主席 Jesse Ehrenfeld 说:“我们没有标准。” “今天我无法向您指出任何关于如何评估、监控、查看算法模型(无论是否启用人工智能)在部署时的性能的标准。”
医生办公室里最常见的人工智能产品可能是环境文档,这是一种技术支持的助手,可以倾听和总结患者就诊情况。去年,Rock Health 的投资者追踪到 3.53 亿美元流入这些文档公司。但是,Ehrenfeld 说,“目前还没有比较这些工具输出的标准。”
当即使是小错误也可能造成毁灭性影响时,这就是一个问题。斯坦福大学的一个团队尝试使用大型语言模型——ChatGPT 等流行的 AI 工具背后的技术——来总结患者的病史。他们将结果与医生会写的内容进行了比较。
斯坦福大学的 Shah 说:“即使在最好的情况下,模型的错误率也达到了 35%。” 在医学领域,“当您编写摘要并忘记一个词,比如‘发烧’——我的意思是,那是个问题,对吧?”
有时算法失败的原因相当合乎逻辑。例如,基础数据的更改可能会削弱其有效性,例如当医院更换实验室供应商时。
然而,有时,即使没有明显的原因,陷阱也会张开。
波士顿麻省总医院布莱根妇女医院个性化医疗计划的技术主管 Sandy Aronson 说,当他的团队测试一个旨在帮助遗传咨询师查找有关 DNA 变异的相关文献的应用程序时,该产品遭受了“非确定性”——也就是说,在短时间内多次询问同一个问题时,它给出了不同的结果。
Aronson 对大型语言模型在为负担过重的遗传咨询师总结知识方面的潜力感到兴奋,但“这项技术需要改进。”
如果指标和标准稀少,并且错误可能会因奇怪的原因而出现,那么机构应该怎么做?投入大量资源。Shah 说,在斯坦福大学,仅审核两个模型的公平性和可靠性就花费了 8 到 10 个月和 115 个工时。
接受 KFF Health News 采访的专家提出了人工智能监控人工智能的想法,并由一些(人类)数据专家监控两者。所有人都承认,这将要求组织花费更多的钱——考虑到医院预算的现实和人工智能技术专家的有限供应,这是一个艰难的要求。
“有一个愿景,我们正在融化冰山,以便让模型监控他们的模型,这很棒,”Shah 说。“但这真的是我想要的吗?我们还需要多少人?”
KFF Health News,前身为 Kaiser Health News (KHN),是一个全国性的新闻编辑室,制作关于健康问题的深度新闻报道,并且是 KFF 的核心运营项目之一——KFF 是健康政策研究、民意调查和新闻报道的独立来源。