请不要问人工智能某物是否有毒

从完美无瑕的长颈鹿到秘密的松鼠,Janelle Shane 探索了生成式人工智能的荒谬之处(和危险性)

Robot stepping on banana peel.

Moor Studio/Getty Images

生成式人工智能存在的早期,笔记本电脑需要花费数小时才能处理繁琐的代码,因为人工智能模型缓慢地学习写作、拼写,并最终输出奇怪而滑稽的万圣节服装、搭讪语或食谱。光学研究员 Janelle Shane 对其中一份食谱清单——其中要求使用切碎的波旁威士忌和切碎的水等配料——非常感兴趣,以至于她让自己的笔记本电脑也承担了这项任务。自 2016 年以来,她一直在博客中记录这些神经网络的快速发展,从最初笨拙可爱到令人惊讶地连贯——有时,也令人震惊地错误。Shane 2019 年出版的著作《你看上去像个东西,但我爱你》剖析了人工智能的工作原理以及我们可以(和不能)对它抱有的期望,而她最近在她的博客 AI Weirdness 上发布的文章则探讨了图像生成算法的怪异输出、ChatGPT 尝试的ASCII 艺术自我批评以及人工智能的其他粗糙之处。《大众科学》与 Shane 谈论了为什么一只完美无瑕的长颈鹿会让人工智能感到困惑,这些模型绝对不应该用于哪些地方,以及聊天机器人的准确性是否可以完全信任。

[以下是对话的编辑稿。]

在您训练和玩弄聊天机器人的这些年中,生成式人工智能发生了怎样的变化?


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


现在关于人工智能的商业热议比我刚开始接触它时要多得多。在那个时候,我认为,谷歌翻译是人们会看到的整个机器学习人工智能技术体系的首批大型商业应用之一。当时有迹象表明可能还有更多的应用,但在那个时候,这绝对更多是研究人员的领域。

有些事情没有改变,[例如] 人们倾向于对从这些技术中获得的文本进行更深层次的解读。我们会从一片树叶在人行道上随意飘落中看到意义……随着文本变得更加复杂,[炒作] 正在进入主要的专栏文章和主要报纸。随着这些工具变得更容易获得,我们也看到越来越多的人尝试将其用于一切事物,看看哪些能奏效。

这为您博客提供了更多的素材,对吗?

我一直关注人工智能生成文本的方式与人类写作方式之间的差异,因为对我来说,这正是你可能遇到有趣和意想不到的东西以及新颖事物的地方……看到所有这些故障答案和怪异的文本生成[也]是一种有趣的方式,让你获得一些直觉。如果你想,“啊,是的,我可以用它来标记我的演示文稿中的所有图像,这样我就不必编写无障碍字幕了?”你可以记住这一点。答案是,它会生成标签,但你真的需要仔细检查它们,因为所有这些故障。

说“嘿,它不是完全准确的”是一回事。记住无斑长颈鹿的故事又是另一回事。2023 年,田纳西州的一家动物园里出生了一只没有斑点的长颈鹿。上次[已知]发生这种情况是在互联网出现之前,因此互联网上[几乎没有]关于无斑长颈鹿的照片。看到所有这些图像标记算法如何描述这只长颈鹿并包含关于斑点皮毛的描述,因为这只是预期的,这非常有趣。

这是一个意想不到的事情的例子,这个算法没有机会记住或敷衍了事或隐藏这种缺乏更深层次理解的情况。突然,你有了这个案例,它揭示了它实际上并没有关注斑点。这就是为什么故障艺术很重要,为什么这些错误很重要。

您偶尔也会指出生成式人工智能擅长的领域——我特别想到一篇帖子,您要求 GPT-3 回答问题,就好像它是一只秘密的松鼠,展示了它如何展示虚构的内心生活。

我真的很想戳破这种论点,即如果这些文本生成器可以描述有感知力的人工智能的体验,那么它们一定是具有感知力的人工智能,因为这曾经是,而且现在仍然是,一种正在流传的说法:“看,它说它是有感知力的,有思想和感情,而且不只是想被用来生成文本。”看到文本生成出现这种情况令人不安。我确实想指出,尽管人工智能可以描述成为一只松鼠的体验,但这并不意味着它实际上是一只松鼠。

您是否觉得生成式人工智能发生了实际的重大质变,还是从切碎的水到秘密松鼠的旅程感觉是渐进的?

就像在预测文本字符串中一样,接下来发生的事情遵循之前发生的事情。因此,从这个意义上说,它是渐进的,但确实有很多增量——数百万美元的计算时间。而一个全球性的产业将对一个项目和一个技术做到这一点。因此,它肯定已经成长和改变了。另一方面,你从这些算法中看到的错误类型与它们从一开始就存在的错误类型相同。这也是我在 2019 年仍然愿意写一本关于人工智能的书的原因之一,当时情况仍在快速变化:我仍然可以看到这些暗流,这些保持不变的主线。

您以人工智能生成的搭讪语命名了您的书名,这句搭讪语非常奇怪,以至于它兜了一圈又变得有魅力了。今天的人工智能搭讪语是否会具有同样的魅力,还是只会是令人沮丧的网络搭讪语的翻版?

我怀疑现在它会是网络搭讪语令人沮丧的混音版。很难得到一个独特的搭讪语,因为它会记住过去的很多搭讪语。

我真的很喜欢早期循环神经网络在我的笔记本电脑上运行时产生的故障、半混乱的文本。文本的简单性和彻底的混乱性让我觉得非常搞笑。ChatGPT、[Gemini] 以及人们现在可以使用的所有这些文本生成器——它们生成如此连贯的文本几乎是一种遗憾。

我也觉得这种连贯性有点可怕,因为我看到人们问人工智能诸如“某某东西对狗有毒吗?”之类的问题。我知道它会回答你,但请不要问它这个问题!

正是如此。有很多毒理学家说,“好的,这个具体的建议是危险的……不要这样做。”而且它可能只是从算法中冒出来的。因为它如此连贯,而且通常因为它被包装成看起来像是在查找信息的东西,所以人们被引导去信任它。有一些臭名昭著的人工智能生成的蘑菇狩猎书籍,其中包含完全危险的建议。我没有预料到人们会为了赚钱而生成和销售它们,而没有真正关心人们浪费了多少时间,或者[他们会让人们]处于实际危险之中……我[没有预料到]人们会多么愿意使用故障的或不完全正确的或有点浪费时间的文本——会有一个市场。

您是否预见到生成式人工智能最终会变得准确?

我们现在尝试将这些算法用作检索信息的方式不会引导我们获得正确的信息,因为它们在训练期间的目标是听起来正确和具有可能性,并且实际上没有任何东西从根本上与现实世界的准确性或准确检索和引用正确的来源材料联系起来。而且我知道人们正试图以这种方式对待它,并在很多应用中以这种方式出售它。我认为人们所要求的这种信息检索与这些东西实际训练的目的(即听起来正确)之间存在根本的不匹配。

任何你需要正确答案的事情都不是生成式人工智能的好用途。

而且偏见仍然是一个问题

许多表面上的污秽已经被微调和额外的训练消除了,但这并没有从根本上改变我们给这些算法的输入数据。它仍然存在,仍然可以衡量,并且仍然对我们从中获得的东西产生影响。

生成式人工智能的炒作是否排挤了人工智能的其他良好用途?

有很多人正在默默地继续工作,使用人工智能技术来解决他们无法用其他方式解决的有用问题。例如,在药物发现研究中,这是一个相当大的成功,因为你可以使用更量身定制的人工智能技术来尝试不同的药物组合,并提出有希望的配方,然后,至关重要的是,去实验室测试这些配方,看看它们是否真的会成功。

人们还在将这些模型应用于一些轻微的不准确是可以接受的情况。我想到了语音邮件转录,例如。如果它不够准确,你必须听一遍,好吧,但是你可以在不必坐下来听完常规语音邮件的情况下了解大意。我认为,这些小型人工智能应用才是价值真正所在,也是我认为长期成功可能实现的地方。

人工智能转录软件真的很有用,但是我现在使用的版本还会根据讨论自动生成一些小的行动要点,就好像你在参加工作会议一样,无论这在上下文中是否有意义。我只是在谈论某人的研究,而不是设定议程!

我很想知道它会根据这次采访决定布置什么家庭作业——如果它告诉你去开始切碎那些水。

Sarah Lewin Frasier大众科学的高级新闻编辑。她计划、分配和编辑月刊杂志的“进展”部分,以及编辑在线新闻。在 2019 年加入大众科学之前,她曾在 Space.com 担任副编辑,记录人类探索星空的旅程。(甚至更早之前,她曾在大众科学担任印刷实习生。)Frasier 拥有布朗大学的数学学士学位和纽约大学科学、健康与环境报道项目的硕士学位。她喜欢音乐剧和数学纸工艺。

更多作者:Sarah Lewin Frasier
© . All rights reserved.