请勿向 ChatGPT 寻求道德建议

在向大型语言模型寻求伦理咨询之前,请考虑什么才是好的建议

Illustration of hands typing on a keyboard shaped like a speech bubble, AI chat prompt concept

Rob Dobi/Getty Images

我应该告诉我的朋友他们的男朋友出轨了吗?当我听到不雅的笑话时,我应该干预吗?

当面对道德问题——行为过程与我们的正误感相关的情况——时,我们经常寻求建议。现在人们也可以向 ChatGPT 和其他大型语言模型 (LLM) 寻求指导。

许多人似乎对这些模型提供的答案感到满意。在一项预印本研究中,当向人们展示道德困境时,他们认为 LLM 生成的回复比纽约时报伦理专栏作家 Kwame Anthony Appiah 的回复更值得信赖、可靠甚至更细致入微


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和思想的具有影响力的故事的未来。


这项研究与其他几项研究一起表明,LLM 可以提供合理的道德建议。去年四月发表的另一项研究发现,人们认为人工智能在美德、智慧和可信度方面的推理“优于人类”。一些研究人员甚至提出,尽管 LLM “天生具有反社会性”,但仍可以对其进行培训以提供合乎道德的财务指导。

这些发现意味着,virtuosic 伦理建议触手可及——那么为什么不向 LLM 寻求建议呢?但是这种结论背后有几个值得怀疑的假设。首先,研究表明,人们并不总是能在看到好的建议时认出来。此外,许多人认为建议的内容——字面意思,无论是书面的还是口头的——在考虑其价值时最重要,但社交联系可能对于解决困境,尤其是道德困境尤为重要。

在 2023 年的一篇论文中,研究人员分析了许多研究,以检查,除其他外,是什么使建议最具有说服力。事实证明,人们认为建议给予者越专业,他们就越有可能实际采纳他们的建议。但是感知不需要与实际专业知识相符。此外,即使在他们的专业领域,专家也不一定是好的建议给予者。在一系列人们学习玩单词搜索游戏的实验中,那些从游戏高分玩家那里获得建议的人并没有做得更好 比那些由低分玩家指导的人。在任务中表现出色的人并不总是知道他们是如何做到的,也无法就如何做到这一点向其他人提供建议。

人们也倾向于认为中立、客观的信息比主观的细节信息更具信息量,例如第一手资料。但事实并非一定如此。考虑一项研究,其中本科生来到实验室参加快速约会。在每次约会之前,他们都会看到他们即将见面的人的个人资料,或者描述另一个学生参与该活动的经历的证词。即使参与者期望关于他们约会的客观信息能够更好地预测会话的进展,但阅读过其他人证词的人对他们的经历做出了更准确的预测。

当然,ChatGPT 无法从生活经验中汲取经验来提供咨询。但是,即使我们可以确保我们收到(并识别)高质量的建议,LLM 也无法复制其他社会益处。当我们寻求道德建议时,我们很可能是在分享一些私人的东西——而且,通常,我们想要的更多的是亲密关系而不是指导。参与自我表露是快速感到亲近某人的已知方法。在对话过程中,建议者和被建议者可能会寻求并建立共同的现实——也就是说,对内在状态(如感受、信念和对世界的担忧)的共同感——这也有助于促进亲近感。尽管人们可能感觉他们正在与 LLM 建立亲近感和共同的现实感,但至少目前,这些模型不能很好地替代人际关系。

当然,有些人可能想要回避社交互动。他们可能担心他们的谈话会很尴尬,或者朋友会因为不得不分享他们的问题而感到负担。然而,研究始终如一地发现,人们低估了他们与朋友之间短暂的自发对话和深入的心灵对话的乐趣。

对于道德建议,我们应该格外小心——它还有一个额外的怪癖,即感觉更像是客观事实,而不是观点或偏好。您(或我)对咸醋味是否是最好的薯片口味的看法是主观的。但是“偷窃是不好的”和“诚实是好的”这样的想法感觉是确定的。因此,带有大量道德理由的建议似乎特别具有说服力。因此,建议仔细评估来自任何顾问(人工智能或人类)的任何道德建议实例。

有时,驾驭充满道德高地信念的辩论的最佳方法是重新定义它们。当人们有强烈的道德信念并以非常黑白分明的方式看待问题时,他们可能会抵制妥协或其他实际形式的问题解决。我过去的研究表明,当人们将危险性行为、吸烟或枪支所有权道德化时,他们不太可能支持减少与这些行为相关的危害的政策,因为该政策仍然允许这些行为。相比之下,人们并不担心减少似乎超出道德范围的行为的危害,例如系安全带或头盔。从道德视角转向实际视角对于一个人来说已经很困难,对于 LLM 来说可能太难了,至少在它们当前的迭代中是这样。

这给我们带来了关于 LLM 的另一个担忧。ChatGPT 和其他语言模型对问题的提出方式非常敏感。正如 2023 年发表的一项研究表明,LLM 会从一个提示到下一个提示给出不一致甚至有时是矛盾的道德建议。模型的答案可以如此容易地被改变,这应该促使我们停下来思考一下。有趣的是,同一项研究发现,人们不相信模型的建议会左右他们的判断,但阅读了 LLM 生成的建议的研究参与者比没有阅读 LLM 消息的类似人群更倾向于按照该指导行事。简而言之,LLM 的输入对人们的影响超出了他们的意识。

当涉及到 LLM 时,请谨慎行事。人们并不擅长衡量好的顾问和好的建议,尤其是在道德领域,而且我们通常需要真正的社交联系、认可,甚至挑战,而不是“专家”的回应。所以你可以询问 LLM,但不要止步于此。也问问朋友。

您是神经科学、认知科学或心理学方面的专家科学家吗?您是否读过最近发表的同行评审论文,并想为“心灵 Matters”撰写文章?请将建议发送给大众科学的“心灵 Matters”编辑 Daisy Yuhas,邮箱为dyuhas@sciam.com

这是一篇观点和分析文章,作者或作者表达的观点不一定代表大众科学的观点。

© . All rights reserved.