在科学研究中,研究人类经验通常需要时间、金钱,当然还需要人类参与者。但随着 大型语言模型(如 OpenAI 的 GPT-4)变得越来越复杂,研究界的一些人逐渐倾向于认为,人工智能可以在某些 科学研究中取代人类参与者。
这是 一篇新的预印本论文的发现,该论文已被计算机协会即将于 5 月举行的计算机系统人为因素会议 (CHI) 接受,CHI 是人机交互领域规模最大的此类聚会。该论文借鉴了十几项已发表的研究,这些研究测试或提议使用大型语言模型 (LLM) 来代替人类研究对象或代替人类分析研究结果。但许多专家担心,这种做法可能会产生科学上粗制滥造的结果。
这项新的综述由卡内基梅隆大学研究人工智能伦理和计算机视觉的 William Agnew 领导,引用了 13 份技术报告或研究文章以及三种商业产品;所有这些都在关于人类行为和心理学、市场营销研究或人工智能开发等主题的研究中,用 LLM 取代或提议取代人类参与者。在实践中,这将涉及研究作者向 LLM 提出原本为人类设计的问题,并要求它们对各种提示提供“想法”或回应。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
一篇预印本,该论文在去年的 CHI 会议上获得了最佳论文奖,测试了 OpenAI 早期 LLM GPT-3 是否可以在关于将视频游戏体验为艺术的定性研究中生成类似人类的反应。科学家们要求 LLM 生成可以代替人类书面回答的答案,例如“您是否曾将数字游戏体验为艺术?以任何对您有意义的方式思考‘艺术’”。然后,这些回应被展示给一组参与者,他们认为这些回应比实际由人类撰写的回应更像人类。
Agnew 和他的合著者在他们的新综述中发现,此类提议通常引用使用人工智能合成数据的四个主要好处。它可以提高速度、降低成本、避免参与者的风险并增加多样性——通过模拟弱势群体(否则他们可能不会挺身而出参加现实世界研究)的经历。但新论文的作者得出结论,这些研究方法将与涉及人类参与者的研究的核心价值观相冲突:代表、包容和理解被研究者。
科学界中的其他人也对人工智能合成的研究数据持怀疑态度。
“我非常警惕这样一种想法,即你可以使用生成式人工智能或任何其他类型的自动化工具来取代人类参与者或任何其他类型的真实世界数据,”出版伦理委员会理事会成员 Matt Hodgkinson 说,该委员会是一家总部位于英国的非营利组织,旨在促进符合伦理规范的学术研究实践。
Hodgkinson 指出,人工智能语言模型可能不像我们认为的那样像人类。一项尚未经过同行评审的最新分析研究了科学家在 655,000 篇学术文章中如何提及人工智能,发现 2007 年至 2023 年间,拟人化程度提高了 50%。但实际上,人工智能聊天机器人并没有那么像人类;这些模型通常被称为“随机鹦鹉”,它们只是重新混合和重复它们所学到的东西。它们缺乏任何情感、经验或对所提问题的真正理解。
卡内基梅隆大学研究深度学习和机器人的 Andrew Hundt 说,在某些情况下,人工智能生成的数据可能对从人类收集的数据起到有益的补充作用。他补充说,“对于研究问题的某些基本初步测试,它可能很有用”,一旦真正的研究开始,合成数据将被搁置,转而使用人类数据。
但 Hundt 表示,使用人工智能合成人类反应可能不会为社会科学研究带来太多好处——部分原因是此类研究的目的是了解真实人类的独特复杂性。他说,就其本质而言,人工智能合成的数据无法揭示这些复杂性。事实上,生成式人工智能模型是在大量数据的基础上训练的,这些数据经过聚合、分析和平均,以消除此类不一致性。
剑桥大学研究人工智能伦理学的 Eleanor Drage 说:“[人工智能模型]提供了一系列不同的反应,基本上是将 1000 个人整合为一个。”“他们没有生活经验;他们只是经验的聚合者。”而人类经验的这种聚合可以反映社会内部的深刻偏见。例如,图像和文本生成人工智能系统经常使种族和性别刻板印象永久化。
新的综述中确定的一些最新提议还表明,人工智能生成的数据可能有助于研究自杀等敏感话题。从理论上讲,这可以避免让弱势群体接触可能引发自杀念头的实验。但在许多方面,这些群体的脆弱性放大了使用人工智能回应研究他们的经历的危险。大型语言模型扮演人类角色很可能会提供不能代表被研究群体中的真人会如何思考的回应。这可能会错误地影响未来的治疗和政策。“我认为这非常冒险,”Hodgkinson 说。“根本[问题]是 LLM 或任何其他机器工具根本不是人类。”
即使科学家没有将生成式人工智能直接纳入他们的工作,它可能已经在削弱人类研究数据的质量。这是因为许多研究使用亚马逊的 Mechanical Turk 或类似的零工工作网站来收集人类研究数据。基于 Mechanical Turk 的回应通常被认为是次等的,因为参与者可能尽可能快地完成分配的实验任务以赚钱,而不是密切关注它们。并且有早期迹象表明,Mechanical Turk 工作人员已经在使用生成式人工智能来提高工作效率。在一篇预印本论文中,研究人员要求该网站上的众包工人完成一项任务,并推断出 33% 到 46% 的受访者使用了 LLM 来生成他们的回应。
由于没有使用人工智能生成数据而不是人类数据的科学先例,因此负责任地这样做需要仔细思考和跨领域合作。“这意味着与心理学家一起思考——也意味着与专家一起思考——而不是仅仅让一群科学家自己尝试,”Drage 说。“我认为应该对如何创建和使用此类数据设置护栏。而且似乎没有任何护栏。”
理想情况下,这些护栏应包括学术机构制定的关于 LLM 在研究中哪些使用是可以接受的和哪些是不可以接受的国际准则,或超国家组织关于如何对待使用人工智能驱动的数据得出的发现的指导。
“如果人工智能聊天机器人被随意使用,可能会严重损害科学研究的质量,并导致基于错误数据的政策变更和系统变更,”Hodgkinson 说。“绝对、根本的底线是研究人员需要正确验证事物,不要被模拟数据所愚弄——[或认为]它在某种程度上可以替代真实数据。”