人工智能在医学领域被过度炒作

用于预测疾病的医疗保健人工智能模型并不像报告可能暗示的那样准确。以下是原因

Programming code with abstract technical background in blue

我们每天都在使用依赖于人工智能 (AI) 的工具,其中像 Alexa 和 Siri 这样的语音助手是最常见的。这些消费产品运行得相当好——Siri 大部分时候都能理解我们说的话——但它们绝非完美。我们接受它们的局限性,并调整我们使用它们的方式,直到它们给出正确的答案,或者我们放弃。毕竟,Siri 或 Alexa 误解用户请求的后果通常是轻微的。

然而,支持医生临床决策的人工智能模型的错误可能意味着生死攸关。因此,在我们部署这些模型之前,至关重要的是我们要了解这些模型的工作效果如何。目前已发表的关于这项技术的报告对其准确性描绘了一幅过于乐观的图景,这有时会转化为媒体上的耸人听闻的故事。媒体充斥着关于算法的讨论,这些算法可以以高达 74% 的准确率诊断早期阿尔茨海默病,或者比临床医生更准确。详细描述这些进展的科学论文可能成为新公司、新投资和研究方向以及医院系统大规模实施的基础。在大多数情况下,该技术尚未准备好部署。

原因如下:当研究人员将数据输入人工智能模型时,模型有望变得更准确,或者至少不会变得更糟。然而,我们的工作其他人的工作已经发现了相反的情况,即已发表模型中报告的准确率随着数据集规模的增加而降低。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的具有影响力的故事的未来。


这种违反直觉的情况的原因在于科学家如何估计和报告模型的报告准确率。在最佳实践下,研究人员在他们数据集的一部分上训练他们的人工智能模型,将剩余部分保存在“保险箱”中。然后,他们使用该“保留”数据来测试其模型的准确性。例如,假设正在开发一个人工智能程序,通过分析痴呆症患者与非痴呆症患者的说话方式来区分他们。该模型使用训练数据进行开发,训练数据由口语样本和痴呆症诊断标签组成,以预测一个人是否从他们的言语中患有痴呆症。然后,针对相同类型的保留数据对其进行测试,以估计其执行的准确程度。然后,该准确率估计值在学术出版物中报告;保留数据的准确率越高,科学家们就认为该算法的性能越好。

为什么研究表明,报告的准确率会随着数据集规模的增加而降低?理想情况下,在模型完成并固定之前,科学家永远不会看到保留数据。然而,科学家可能会偷看数据,有时是无意中,并修改模型,直到它产生高准确率,这种现象被称为数据泄露。通过使用保留数据来修改他们的模型,然后对其进行测试,研究人员实际上是在保证系统将正确预测保留数据,从而导致模型真实准确率的虚高估计。相反,他们需要使用新的数据集进行测试,以查看模型是否真正在学习,并且可以查看相当不熟悉的事物来得出正确的诊断。

虽然这些过于乐观的准确率估计值发表在科学文献中,但性能较低的模型却被塞进了谚语中的“文件抽屉”中,永远不会被其他研究人员看到;或者,如果它们被提交出版,则不太可能被接受。数据泄露和发表偏倚的影响对于在小型数据集上训练和评估的模型来说尤其巨大。也就是说,用小型数据集训练的模型更有可能报告虚高的准确率估计值;因此,我们在已发表的文献中看到了这种奇特的趋势,即用小型数据集训练的模型报告的准确率高于用大型数据集训练的模型。

我们可以通过更严格地对待我们验证模型的方式以及结果在文献中的报告方式来防止这些问题。在确定人工智能模型的开发对于特定应用是合乎道德的之后,算法设计者应该问的第一个问题是“我们是否有足够的数据来建模像人类健康这样复杂的结构?” 如果答案是肯定的,那么科学家应该花更多时间在模型的可靠评估上,而花更少时间试图从模型中挤出每一盎司的“准确率”。模型的可靠验证始于确保我们拥有代表性数据。人工智能模型开发中最具挑战性的问题是训练和测试数据本身的设计。虽然消费者人工智能公司会伺机收集数据,但临床人工智能模型由于风险较高,因此需要更加谨慎。算法设计者应定期质疑用于训练模型的数据的大小和组成,以确保它们代表了疾病表现范围和用户人口统计数据。所有数据集在某些方面都是不完美的。研究人员应力求了解用于训练和评估模型的数据的局限性,以及这些局限性对模型性能的影响。

不幸的是,没有可靠验证临床人工智能模型的灵丹妙药。每种工具和每个临床人群都不同。为了获得考虑到真实世界条件的令人满意的验证计划,临床医生和患者需要尽早参与设计过程,并听取食品和药物管理局等利益相关者的意见。更广泛的对话更有可能确保训练数据集具有代表性;了解模型工作原理的参数是相关的;以及人工智能告诉临床医生什么是合适的。临床研究中的可重复性危机可以吸取教训,其中像预注册和以患者为中心的研究策略被提议作为提高透明度和促进信任的手段。同样,人工智能模型设计的社会技术方法认识到,为临床应用构建值得信赖和负责任的人工智能模型不仅仅是一个技术问题。它需要深入了解潜在的临床应用领域,认识到这些模型存在于更大的系统中,并了解如果模型性能在部署时下降可能造成的危害。

如果没有这种整体方法,人工智能炒作将继续存在。这是不幸的,因为技术确实有可能改善临床结果并将临床覆盖范围扩展到服务欠缺的社区。采用更全面的方法来开发和测试临床人工智能模型将导致关于这些模型的工作效果及其局限性的更细致的讨论。我们认为,这将最终使该技术充分发挥其潜力,并使人们从中受益。

作者感谢 Gautam Dasarathy、Pouria Saidi 和 Shira Hahn 就此主题进行的启发性对话。他们帮助阐明了文章中讨论的一些要点。

这是一篇观点和分析文章,作者或作者表达的观点不一定代表《大众科学》的观点。

Visar Berisha is an associate professor in the College of Engineering and the College of Health Solutions at Arizona State University and a co-founder of Aural Analytics. He is an expert in practical and theoretical machine learning and signal processing with applications to health care.

More by Visar Berisha

Julie Liss is a professor and associate dean in the College of Health Solutions at Arizona State University and co-founder of Aural Analytics. She is an expert on speech analytics in the context of neurological health and disease.

More by Julie Liss
© . All rights reserved.