密歇根大学安阿伯分校新兴技术治理专家 Shobita Parthasarathy 表示,能够从大量文本中生成流畅语言的机器学习算法可能会改变科学的运作方式——但不一定朝着好的方向发展。
在4月27日发布的一份报告中,Parthasarathy 和其他研究人员试图预测被称为大型语言模型 (LLM) 的新兴人工智能 (AI) 技术对社会的影响。这些模型可以生成令人震惊的、令人信服的散文,在语言之间进行翻译,回答问题,甚至生成代码。包括谷歌、脸书和微软在内的构建这些模型的公司旨在将它们用于聊天机器人和搜索引擎,以及总结文档。(至少有一家公司 Ought 在加利福尼亚州旧金山试验将大型语言模型用于研究;它正在构建一个名为“Elicit”的工具,用于使用科学文献回答问题。)
大型语言模型已经备受争议。它们有时会鹦鹉学舌般地重复它们所训练的数百万或数十亿份文档中的错误或有问题的刻板印象。研究人员担心,源源不断的看似权威的计算机生成语言与人类写作难以区分,可能会导致不信任和困惑。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
Parthasarathy 表示,尽管大型语言模型可以加强理解复杂研究的努力,但它们也可能加深公众对科学的怀疑。她与《自然》杂志谈论了这份报告。
大型语言模型可能如何帮助或阻碍科学?
我最初认为大型语言模型可能具有民主化和赋能的影响。就科学而言,它们可以使人们能够快速从信息中提取见解:例如,通过查询疾病症状,或生成技术主题的摘要。
但是,算法摘要可能会出错,包含过时的信息或消除细微差别和不确定性,而用户却没有意识到这一点。如果任何人都可以使用大型语言模型来使复杂的研究变得易于理解,但他们有可能获得对科学的简化、理想化的看法,而这种看法与混乱的现实不符,那么这可能会威胁到专业性和权威性。这也可能加剧公众对科学的信任问题。而且人们与这些工具的互动将非常个性化,每个用户都会获得自己生成的信息。
问题是否在于大型语言模型可能会引用过时或不可靠的研究,这是一个巨大的问题?
是的。但这并不意味着人们不会使用大型语言模型。它们很诱人,并且它们流畅的输出以及它们作为令人兴奋的新技术的形象将带有客观性的外衣。普通用户可能不会意识到它们有局限性——它们可能是建立在部分或历史数据集之上的。
科学家很容易断言他们很聪明,并且意识到大型语言模型是有用的但不完整的工具——例如,用于开始文献综述。尽管如此,这些工具可能会缩小他们的视野,并且可能很难识别大型语言模型何时出错。
例如,大型语言模型在数字人文科学中可能很有用:总结历史文本关于特定主题的说法。但是这些模型的过程是不透明的,并且它们没有在其输出旁边提供来源,因此研究人员需要仔细考虑他们将如何使用它们。我看到了一些在社会学中提出的用法,并对一些学者的轻信程度感到惊讶。
谁可能会为科学创建这些模型?
我猜大型科学出版商将最有可能开发特定于科学的大型语言模型(从通用模型改编而来),能够抓取其论文的专有全文。他们还可以考虑自动化同行评审的某些方面,例如查询科学文本以找出应该咨询谁作为审稿人。大型语言模型也可能被用来尝试挑选出手稿或专利中特别创新的结果,甚至可能帮助评估这些结果。
出版商还可以开发大型语言模型软件,以帮助非英语国家的 researchers 改进其散文。
当然,出版商可能会达成许可协议,使其文本可供大型公司使用,以纳入其语料库中。但我认为他们更有可能尝试保持控制权。如果是这样,我怀疑科学家们会越来越对他们的知识垄断感到沮丧,并将对此提出异议。基于开放获取论文和付费墙论文摘要的大型语言模型存在一些潜力。但这可能很难以这种方式获得足够数量的最新科学文本。
大型语言模型是否可以用来制作逼真的假论文?
是的,如果容易且他们认为这会有助于他们的职业生涯,那么有些人会使用大型语言模型来生成虚假或接近虚假的论文。尽管如此,这并不意味着大多数想要成为科学界一份子的科学家将无法就使用大型语言模型的法规和规范达成一致。
应该如何监管大型语言模型的使用?
对我来说,几乎没有任何人工智能工具经过系统的法规或标准维护机制,这很令人着迷。大型语言模型也是如此:它们的方法是不透明的,并且因开发者而异。在我们的报告中,我们建议政府机构介入进行一般监管。
特别是对于大型语言模型在科学中的可能用途,透明度至关重要。开发大型语言模型的那些人应该解释使用了哪些文本以及所涉及的算法逻辑——并且应该明确说明是否使用了计算机软件来生成输出。我们认为,美国国家科学基金会也应该支持开发一个基于所有公开可用的科学文章进行训练的大型语言模型,涵盖广泛的领域。
科学家应该警惕期刊或资助者依赖大型语言模型来寻找同行评审员,或者(可能)将此过程扩展到评审的其他方面,例如评估手稿或资助申请。因为大型语言模型倾向于过去的数据,所以它们的建议可能过于保守。
本文经许可转载,首次发表于 2022年4月28日。