关于人工智能,与沃纳·赫尔佐格的无尽对话能教给我们什么

沃纳·赫尔佐格和斯拉沃热·齐泽克之间由人工智能生成的对话绝对引人入胜,但它也说明了开始降临在我们身上的虚假信息危机

An illustration of director Werner Herzog and Slovenian philosopher Slavoj Žižek.

约翰·库尼奥

在网站“无限对话”上,德国电影制作人沃纳·赫尔佐格和斯洛文尼亚哲学家斯拉沃热·齐泽克正在就任何话题进行公开聊天。他们的讨论之所以引人注目,部分原因是这些知识分子在说英语时带有鲜明的口音,并且倾向于使用古怪的词语。但他们还有另一个共同点:这两个声音都是深度伪造的,他们用这些独特口音说出的文本是由人工智能生成的。

我构建这个对话是为了发出警告。被称为机器学习的技术的改进,使得深度伪造——极其逼真但虚假的图像、视频或语音——太容易创建,并且质量太好。与此同时,语言生成人工智能可以快速且廉价地生成大量文本。这些技术结合起来,不仅可以上演一场无限对话。它们还有能力用大量虚假信息淹没我们。

机器学习是一种人工智能技术,它使用大量数据来“训练”算法,使其在重复执行特定任务时得到改进,目前正经历快速增长阶段。这正在将信息技术的整个领域推向新的水平,包括语音合成,即生成人类可以理解的话语的系统。作为一个对人类和机器之间的模糊空间感兴趣的人,我一直觉得这是一个令人着迷的应用。因此,当机器学习的增强功能使语音合成和语音克隆技术在过去几年中取得了巨大的飞跃——在经历了漫长的小而渐进的改进历史之后——我注意到了这一点。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今世界发现和思想的具有影响力的故事的未来。


当我偶然发现一个名为 Coqui TTS 的示范性语音合成程序时,“无限对话”项目开始了。许多数字领域的项目都始于找到以前未知的软件库或开源程序。当我发现这个工具包,以及蓬勃发展的用户社区和大量的文档时,我知道我已经拥有了克隆名人声音的所有必要要素。

作为赫尔佐格的作品、形象和世界观的欣赏者,我一直被他的声音和说话方式所吸引。我绝非孤例,因为流行文化已将赫尔佐格变成了字面意义上的卡通人物:他的客串和合作包括辛普森一家瑞克和莫蒂马达加斯加的企鹅。因此,当要选择某人的声音进行试验时,没有比他更好的选择了——特别是因为我知道我将不得不听那个声音几个小时。

为克隆赫尔佐格的声音构建训练集是该过程中最容易的部分。在他的采访、配音和有声读物作品之间,有数百小时的语音可以收集起来用于训练机器学习模型——或者在我的例子中,微调现有的模型。机器学习算法的输出通常在“轮次”中得到改进,“轮次”是神经网络接受训练的周期。然后,该算法可以在每个轮次结束时对结果进行采样,从而为研究人员提供材料来审查以评估程序的进展情况。对于赫尔佐格的合成声音,听到模型随着每个轮次的改进,感觉就像见证了一个隐喻性的诞生,他的声音逐渐在数字领域中变得鲜活起来。

一旦我得到了令人满意的赫尔佐格声音,我就开始研究第二个声音,并直觉地选择了齐泽克。与赫尔佐格一样,齐泽克也带有有趣的口音,在知识界具有重要的影响力,并与电影界有联系。他还获得了大众明星的地位,部分原因是他的辩论热情和有时有争议的观点。

在这一点上,我仍然不确定我的项目的最终形式是什么——但我对语音克隆过程的轻松和顺利感到惊讶。如前所述,深度伪造变得太好太容易制作了。就在今年一月,微软宣布了一款名为 VALL-E 的新型语音合成工具,研究人员声称,该工具只需三秒钟的录音就可以模仿任何声音。我们即将面临信任危机,而我们对此毫无准备。

为了强调这项技术产生大量虚假信息的能力,我决定采用永无止境的对话的想法。我只需要一个大型语言模型——根据两位参与者撰写的文本进行微调——以及一个简单的程序来控制对话的流程,使其感觉自然且可信。

给定一系列单词,语言模型可以预测序列中的下一个单词。通过微调语言模型,可以复制特定人员的对话风格,前提是你拥有该人员讲话的大量文本记录。我决定使用一种领先的商业语言模型。那时我突然意识到,生成一个虚假对话(包括其合成语音形式)所需的时间,比听完它所需的时间还要少。这个认识为我提供了该项目的显而易见的名称:“无限对话”。经过几个月的工作,我在 2022 年 10 月将其发布在网上。今年,“无限对话”入选旧金山的“错位博物馆”艺术装置。

当所有部分都到位后,我对项目开始时没有想到的事情感到惊叹。就像他们在现实生活中的角色一样,我的赫尔佐格和齐泽克聊天机器人版本经常谈论哲学和美学。由于这些主题的深奥性质,听众可以暂时忽略模型生成的偶尔的胡言乱语。例如,人工智能齐泽克对阿尔弗雷德·希区柯克的看法在认为这位著名导演是天才和愤世嫉俗的操纵者之间摇摆不定;在另一个不一致之处中,真正的赫尔佐格出了名的讨厌鸡,但他的 AI 模仿者有时会充满同情心地谈论家禽。由于实际的后现代哲学可能会显得混乱——齐泽克本人也指出了这个问题——因此“无限对话”中缺乏清晰度可以被解释为深刻的歧义。

这可能促成了该项目的成功。“无限对话”的数百名访客收听时间超过一个小时,有些人收听时间更长。正如我在网站上提到的,我对“无限对话”访客的希望是他们不要太认真地对待聊天机器人所说的话。相反,我想让人们意识到这项技术及其后果。如果这种人工智能生成的聊天听起来是合理的,请想象一下,听起来逼真的演讲可能会被用来玷污政治家的声誉、欺骗商业领袖,或者仅仅是用听起来像人类报道的新闻的虚假信息来分散人们的注意力。

但也有光明的一面。“无限对话”的访客可以加入越来越多的听众行列,他们报告说,他们使用沃纳·赫尔佐格和斯拉沃热·齐泽克舒缓的声音作为一种白噪音来帮助入睡。这是我支持的这项新技术的一种用法。

© . All rights reserved.