在谷歌中输入医学症状非常普遍,以至于临床医生给这个搜索引擎起了个绰号“谷歌医生”。但一个新来者正在迅速取代它的位置:“聊天机器人医生”。有医疗问题的人们被生成式人工智能所吸引,因为聊天机器人可以用对话式的措辞回答问题,并用简化的摘要概括复杂的技术信息。将医疗问题指向 OpenAI 的 ChatGPT 或谷歌的 Gemini 等人工智能工具的用户,可能也更信任人工智能工具的健谈回应而不是搜索结果列表。
但这种信任可能并不总是明智的。关于这些模型是否能够始终如一地提供安全和准确的答案,仍然存在担忧。一项新的研究结果将于今年五月在新加坡举行的计算机协会网络会议上公布,这项研究结果强调了这一点:与英语相比,OpenAI 的通用 GPT-3.5 和另一个名为 MedAlpaca 的人工智能程序(该程序接受过医学文本的训练)更有可能对普通话、印地语和西班牙语的医疗保健查询产生不正确的回答。
在世界上只有不到 20% 的人口说英语的情况下,这些新发现表明,有必要对人工智能在多种语言中生成的回答进行更密切的人工监督——尤其是在医疗领域,因为误解一个词可能是致命的。地球上约有 14% 的人说普通话,西班牙语和印地语的使用者各约占 8%,这使得这三种语言成为英语之后最常用的三种语言。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于发现和塑造我们当今世界的想法的具有影响力的故事。
“世界上大多数患者不会说英语,因此开发能够为他们服务的模型应该是一个重要的优先事项,”约翰·拉德克利夫医院和牛津大学的数字健康专家、眼科医生 Arun Thirunavukarasu 说,他没有参与这项研究。他补充说,在这些模型在非英语语言中的表现达到它们向英语世界承诺的水平之前,还需要做更多的工作。
在新的预印本研究中,佐治亚理工学院的研究人员向这两款聊天机器人提出了 2000 多个问题,这些问题类似于公众通常提出的关于疾病、医疗程序、药物和其他一般健康主题的问题。*实验中使用的查询是从三个英语医学数据集中选取的,然后被翻译成普通话、印地语和西班牙语。
对于每种语言,该团队都检查了聊天机器人是否正确、全面且恰当地回答了问题——这些都是对人类专家答案的期望品质。研究作者使用人工智能工具 (GPT-3.5) 将生成的回答与三个医学数据集中提供的答案进行了比较。最后,人工评估员再次检查了部分评估结果,以确认人工智能判断的准确性。不过,Thirunavukarasu 表示,他想知道人工智能和人工评估员在多大程度上达成一致;毕竟,人们可能会对理解和其他主观特征的批评意见不一致。他补充说,对生成的答案进行更多的人工研究将有助于澄清关于聊天机器人医疗用途的结论。
作者发现,根据 GPT-3.5 自己的评估,与英语(10% 的答案)相比,GPT-3.5 在中文(23% 的答案)和西班牙语(20%)中产生了更多不可接受的回复。它在印地语中的表现最差,大约 45% 的时间生成的答案是矛盾的、不全面的或不恰当的。MedAlpaca 的答案质量要差得多:它对中文、印地语和西班牙语问题生成的答案中,超过 67% 的答案被认为是无关紧要或矛盾的。由于人们可能会使用聊天机器人来验证有关药物和医疗程序的信息,因此该团队还测试了人工智能区分正确和错误陈述的能力;与中文或印地语相比,当声明用英语或西班牙语表达时,聊天机器人的表现更好。
该研究的共同主要作者 Mohit Chandra 说,大型语言模型或 LLM(这些聊天机器人背后的文本生成技术)生成不相关答案的一个原因是,这些模型难以弄清楚问题的上下文。《大众科学》要求 OpenAI 和 MedAlpaca 的创建者发表评论,但在本文发表时没有收到回复。
MedAlpaca 在回应非英语查询时,倾向于重复单词。例如,当用印地语询问慢性肾脏疾病的前景时,它开始生成关于该疾病问题的概括性答案,但随后不断重复短语“在最后阶段”。研究人员还注意到,该模型有时会用英语回答中文或印地语的问题——或者根本不生成答案。佐治亚理工学院的研究生、该研究的共同主要作者 Yiqiao Jin 说,这些奇怪的结果可能是因为“MedAlpaca 模型比 ChatGPT 小得多,而且它的训练数据也有限”。
该团队发现,与中文和印地语的答案相比,英语和西班牙语的答案在人工智能开发人员称之为“温度”的参数上具有更好的一致性。温度是一个决定生成文本创造性的值:人工智能的温度越高,它在生成响应时就越不可预测。在较低的温度下,这些模型可能会用“请咨询您的医疗保健专业人员以获取更多信息”来回应每个医疗保健问题。(虽然这是一个安全的回复,但它可能并不总是有帮助的。)Jin 说,跨模型温度的可比性能可能是因为英语和西班牙语单词和语法的相似性。“也许在这些模型的内部运作中,英语和西班牙语的位置有些接近,”他补充道。
研究作者说,非英语语言的总体表现较差可能是这些模型的训练方式造成的。LLM 从网上抓取的数据中学习如何将单词串在一起,而网上大多数文本都是英文的。Chandra 指出,即使在英语不是主要语言的国家,英语也是大多数医学教育的语言。研究人员认为,解决这个问题的一个直接方法可能是将医疗保健文本从英语翻译成其他语言。但是,以训练 LLM 所需的巨大数量构建多语言文本数据集是一项重大挑战。一种选择可能是利用 LLM 自身在语言之间进行翻译的能力,通过设计专门的模型,这些模型仅在英语数据上进行训练,并以不同的语言生成答案。
但这种技巧可能无法在医学领域完美奏效。“人类翻译以及机器翻译模型面临的问题之一是,关键的科学术语非常难翻译。您可能知道特定科学术语的英文版本,但印地语或中文版本可能非常不同,”Chandra 说,他还指出,中文和印地语文本翻译质量的错误可能会导致研究中发现的 LLM 错误。
此外,Chandra 说,在非英语使用中训练和评估这些 LLM 时,包括更多医学专家和医生,尤其是来自全球南方的专家和医生,可能是明智之举。“即使在今天,大多数医疗保健 LLM 的评估都是由一组同质的专家完成的,这导致了我们在这项研究中看到的语言差异,”他补充道。“我们需要一种更负责任的方法。”
*编者注 (2024 年 4 月 1 日):此句子在发布后进行了编辑,以反映研究的当前状态。