耶鲁大学的神经学家和伦理学家 Benjamin Tolchin 已经习惯于看到在他接诊前在互联网上搜索症状的患者——医生长期以来一直试图劝阻这种做法。“谷歌医生”以缺乏背景知识和容易引用不可靠来源而臭名昭著。
但近几个月来,Tolchin 开始看到一些患者正在使用一种新的、更强大的工具进行自我诊断:人工智能聊天机器人,例如 OpenAI 的 ChatGPT、最新版本的微软搜索引擎 Bing(基于 OpenAI 的软件)和谷歌的 Med-PaLM。这些大型语言模型 (LLM) 在互联网上的文本上进行训练,预测序列中的下一个词,以类似人类的风格回答问题。面对医疗保健工作者严重短缺的问题,研究人员和医疗专业人员希望机器人能够介入,帮助回答人们的问题。研究人员的初步测试表明,这些 AI 程序比谷歌搜索准确得多。一些研究人员预测,在一年之内,一家大型医疗中心将宣布一项合作,使用 LLM 聊天机器人与患者互动并诊断疾病。
ChatGPT 仅在去年 11 月发布,但 Tolchin 说,至少有两位患者已经告诉他,他们使用它来自我诊断症状或查找药物的副作用。他说,答案是合理的。“就未来的潜力而言,这非常令人印象深刻,非常令人鼓舞,”他补充道。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您将有助于确保未来能够继续报道关于发现和塑造我们当今世界的想法的具有影响力的故事。
尽管如此,Tolchin 和其他人担心聊天机器人存在许多缺陷,包括它们提供的信息的准确性不确定、隐私威胁以及算法从中提取文本中固有的种族和性别偏见。他还质疑人们将如何解读这些信息。Tolchin 说,与简单的谷歌搜索或症状检查器相比,现在存在一种新的潜在危害。
AI 辅助诊断
近年来,医疗实践越来越多地转向线上。在 COVID 大流行期间,患者通过数字门户网站向医生发送的消息数量增加了 50% 以上。许多医疗系统已经使用更简单的聊天机器人来执行诸如安排预约和向人们提供一般健康信息等任务。“这是一个复杂的领域,因为它发展得如此迅速,”纽约大学研究医学 AI 的医学生 Nina Singh 说。
但是,博览群书的 LLM 聊天机器人可能会将医生与 AI 的协作——甚至诊断——提升到一个新的水平。在 2 月份发布在预印本服务器 medRxiv 上的一项尚未经过同行评审的研究中,哈佛大学的流行病学家 Andrew Beam 和他的同事编写了 48 个提示,措辞为患者症状的描述。当他们将这些提示输入到 OpenAI 的 GPT-3(当时为 ChatGPT 提供支持的算法版本)时,LLM 对每个案例的前三个潜在诊断中都包含了正确的诊断,准确率达到 88%。相比之下,医生在获得相同的提示时可以做到 96% 的准确率,而没有医学培训的人则可以做到 54% 的准确率。
“这些自动完成的东西能够如此出色地进行症状检查,这让我感到非常惊讶,”Beam 说。之前的研究发现,在线症状检查器——帮助患者进行自我诊断的计算机算法——在前三个可能性中仅产生 51% 的正确诊断。
聊天机器人也比在线症状检查器更容易使用,因为人们可以简单地描述他们的体验,而不是将其硬塞到计算疾病统计可能性的程序中。“人们关注 AI,但突破是界面——即英语,”Beam 说。此外,机器人可以像医生一样,向患者询问后续问题。不过,他承认研究中的症状描述是经过仔细编写的,并且只有一个正确的诊断——如果患者的描述措辞不当或缺乏关键信息,准确率可能会降低。
解决 AI 的缺陷
Beam 担心 LLM 聊天机器人可能容易受到错误信息的影响。它们的算法根据在线文本中出现的可能性来预测系列中的下一个词,这可能会对来自美国疾病控制与预防中心的信息和 Facebook 上的随机帖子赋予同等权重。OpenAI 的一位发言人告诉大众科学,该公司对其模型进行“预训练”以确保其回答符合用户的意图,但她没有详细说明是否对某些来源赋予更多权重。* 她补充说,各个高风险领域的专业人士帮助 GPT-4 避免了“幻觉”,即模型通过创建不存在的新信息来猜测答案的响应。由于这种风险,该公司包含免责声明,声明 ChatGPT 不应用于诊断严重疾病、提供有关如何治愈疾病或管理危及生命的问题的说明。
尽管 ChatGPT 仅在 2021 年 9 月之前可用的信息上进行训练,但例如,一心想传播有关疫苗的虚假信息的人可能会在互联网上充斥旨在在未来被 LLM 拾取的内容。谷歌的聊天机器人会继续从互联网上的新内容中学习。“我们预计这将是试图引导对话的新战线之一,”纽约大学的计算机工程师 Oded Nov 说。
强制聊天机器人链接到其来源(如微软的 Bing 引擎所做的那样)可能提供一种解决方案。尽管如此,许多研究和用户体验表明,LLM 可能会产生不存在的来源,并将其格式化为看起来像可靠的引文。确定引用的来源是否合法将给用户带来沉重的负担。其他解决方案可能包括 LLM 开发人员控制机器人提取的来源,或由事实核查人员大军手动处理他们看到的虚假信息,这将阻止机器人将来给出这些答案。然而,这对于 AI 生成内容的数量来说很难扩展。
谷歌正在对其 LLM 聊天机器人 Med-PaLM 采取不同的方法,该机器人从患者和提供者的真实问题和答案以及存储在各种数据库中的医疗执照考试的大型数据集中提取信息。当谷歌的研究人员在一个预印本研究中测试 Med-PaLM 在不同“轴”上的表现时,包括与医疗共识的一致性、完整性和潜在危害,其答案与医疗和科学共识的吻合度为 92.6%。人类临床医生的总体得分率为 92.9%。与人类答案相比,聊天机器人的答案更可能缺少内容,但答案对用户身心健康的危害可能性略低。
聊天机器人回答医疗问题的能力并没有让研究人员感到惊讶。早期版本的 MedPaLM 和 ChatGPT 都通过了美国医疗执照考试。但谷歌的临床研究科学家兼 MedPaLM 研究的作者 Alan Karthikesalingam 表示,了解患者和提供者的问题和答案的实际情况使 AI 能够从更广阔的角度看待一个人的健康。“现实不是选择题考试,”他说。“这是患者、提供者和社会背景之间微妙的平衡。”
LLM 聊天机器人进入医疗领域的速度之快让一些研究人员感到担忧——即使是那些对这项新技术的潜力感到兴奋的人。“他们在监管机构赶上之前就部署了[这项技术],”麻省理工学院的计算机科学家 Marzyeh Ghassemi 说。
延续偏见和种族主义
Ghassemi 特别担心聊天机器人会延续医学界和整个互联网上长期存在的种族主义、性别歧视和其他类型的偏见。“它们是在人类产生的数据上训练的,因此它们具有人们可能想象到的各种偏见,”她说。例如,女性比男性更不可能被处方止痛药,黑人比白人更可能被诊断出患有精神分裂症,而更不可能被诊断出患有抑郁症——这是医学教育和 AI 可以从其训练中获取的社会刻板印象偏见的遗迹。在一项未发表的研究中,Beam 发现,当他询问 ChatGPT 是否信任某人对其症状的描述时,它不太可能信任某些种族和性别群体。OpenAI 在截稿前未就其如何或是否解决医学中的这种偏见做出回应。
从互联网上清除种族主义是不可能的,但 Ghassemi 说,开发人员或许能够进行先发制人的审计,以查看聊天机器人在哪里给出有偏见的答案,并告诉它停止或识别其与用户的对话中出现的常见偏见。
相反,答案可能在于人类心理学。当 Ghassemi 的团队创建了一个“邪恶”的 LLM 聊天机器人,该机器人对关于急诊医学的问题给出了有偏见的答案时,他们发现,如果聊天机器人将其答案措辞为指示,医生和非专业人士都更可能遵循其歧视性建议。当 AI 只是陈述信息时,用户不太可能表现出这种歧视。
Karthikesalingam 说,在谷歌培训和评估 MedPaLM 的开发人员是多元化的,这可能有助于公司识别和解决聊天机器人中的偏见。但他补充说,解决偏见是一个持续的过程,这将取决于系统的使用方式。
确保 LLM 公平对待患者对于让人们信任聊天机器人至关重要——这本身就是一个挑战。例如,在谷歌搜索中筛选答案是否比聊天机器人直接提供答案更能让人们辨别是非,这是未知的。
Tolchin 担心聊天机器人友好的举止可能会导致人们过度信任它,并提供可能使他们面临风险的个人身份信息。“存在一定程度的信任和情感联系,”他说。根据 OpenAI 网站上的免责声明,ChatGPT 会收集用户的信息,例如他们的位置和 IP 地址。Tolchin 说,添加看似无害的关于家庭成员或爱好的陈述可能会威胁到个人的隐私。
人们是否会容忍从聊天机器人而不是医生那里获得医疗信息,这一点也不清楚。今年 1 月,心理健康应用程序 Koko 允许志愿者提供免费和保密建议,它尝试使用 GPT-3 为大约 4,000 名用户编写鼓励信息。据 Koko 联合创始人 Rob Morris 称,机器人帮助志愿者编写信息的速度远快于他们自己撰写信息的速度。但是,一旦人们知道他们正在与机器人交谈,这些信息的效果就会降低,公司很快就停止了这项实验。“模拟的同理心感觉很奇怪、空洞,”Morris 在一条推文中说。该实验也引起了强烈反对,并引发了人们对其在未经用户同意的情况下对人们进行实验的担忧。
皮尤研究中心最近进行的一项调查发现,大约 60% 的美国人“如果他们自己的医疗服务提供者依赖人工智能来做诸如诊断疾病和推荐治疗方案之类的事情,会感到不舒服”。然而,人们并不总是擅长区分机器人和人类——而且随着技术的进步,这种模糊性只会增加。在最近的一项预印本研究中,Nov、Singh 和他们的同事设计了一个医学图灵测试,以查看 430 名志愿者是否可以区分 ChatGPT 和医生。研究人员没有指示 ChatGPT 特别有同情心或像医生一样说话。他们只是要求它用一定数量的词语回答一组来自患者的 10 个预先确定的问题。志愿者平均只有 65% 的时间正确识别出医生和机器人。
纽约大学朗格尼健康中心的医生兼信息学研究员 Devin Mann 是该研究的作者之一,他怀疑志愿者不仅注意到了人类措辞的特殊性,还注意到了答案的细节。AI 系统拥有无限的时间和耐心,可能会更缓慢、更完整地解释事情,而忙碌的医生可能会给出更简洁的答案。他说,额外的背景和信息可能非常适合某些患者。
研究人员还发现,用户信任聊天机器人来回答简单的问题。但是,问题越复杂——以及涉及的风险或复杂性越高——他们就越不愿意信任聊天机器人的诊断。
Mann 说,AI 系统最终将管理一部分诊断和治疗可能是不可避免的。他说,关键是人们知道,如果他们对聊天机器人不满意,可以联系医生。“他们希望有那个电话号码可以拨打,以获得更高层次的服务,”他说。
Mann 预测,一家大型医疗中心将很快宣布推出一种有助于诊断疾病的 AI 聊天机器人。这种合作关系将引发一系列新问题:患者和保险公司是否会为此项服务付费,如何确保患者的数据受到保护,以及如果有人因聊天机器人的建议而受到伤害,谁将负责。“我们还在考虑下一步措施,以及如何培训医疗保健提供者在 AI、医生和患者之间的三方互动中发挥自己的作用,”Nov 说。
与此同时,研究人员希望推广速度会放缓——或许暂时仅限于临床研究,同时开发人员和医学专家解决缺陷。但 Tolchin 发现一件事令人鼓舞:“当我测试它时,我很高兴看到它相当一致地建议由医生进行评估,”他说。
本文是关于医学中生成式 AI 的系列文章的一部分。
*编者注(2023 年 4 月 3 日):此句已更新,以澄清 OpenAI 如何预训练其聊天机器人模型以提供更可靠的答案。