人工智能最终或能让我们与动物对话

人工智能有望彻底变革我们对动物交流的理解

A close-up, side-view view of the head of a Sperm Whale under water, with blue background.

鲸目动物翻译计划(CETI)正在使用机器学习来尝试理解抹香鲸的发声。

Franco Banfi/明登图片社

南太平洋一个偏远岛屿的茂密森林树冠下,一只新喀里多尼亚乌鸦从它的栖息处窥视着,黑色的眼睛闪闪发光。这只鸟小心翼翼地取下一根树枝,用喙剥去不需要的叶子,并用木头制作成一个钩子。这只乌鸦是一个完美主义者:如果它犯了一个错误,它会把整个东西都扔掉,然后重新开始。当它满意时,这只鸟会将完成的工具戳进树上的一个缝隙中,并钓出一条蠕动的蛆。

新喀里多尼亚乌鸦是已知为数不多的会制造工具的鸟类之一,这种技能曾经被认为是人类独有的。苏格兰圣安德鲁斯大学的行为生态学家克里斯蒂安·鲁茨(Christian Rutz)花费了他职业生涯的大部分时间研究乌鸦的能力。鲁茨观察到的非凡的独创性改变了他对鸟类能力的理解。他开始想知道是否可能还有其他被忽视的动物能力。乌鸦生活在复杂的社会群体中,可能会将工具制造技术传给后代。实验还表明,岛屿周围不同的乌鸦群体有不同的发声。鲁茨想知道这些方言是否可以帮助解释群体之间工具制造方面的文化差异。

由人工智能驱动的新技术有望提供这些类型的见解。动物是否以我们可能理解的方式相互交流是一个持久的迷恋问题。尽管许多土著文化中的人们长期以来一直认为动物可以有意识地交流,但西方科学家传统上一直回避模糊人类与其他动物之间界限的研究,以免被指责为拟人化。但是随着近期人工智能的突破,“人们意识到我们正处于理解动物交流行为方面取得相当大进展的边缘,”鲁茨说。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


除了创建取悦人们的聊天机器人和制作赢得美术比赛的艺术品之外,机器学习可能很快就能破译乌鸦的叫声等,非营利组织地球物种项目的创始人之一阿扎·拉斯金(Aza Raskin)说。它的由人工智能科学家、生物学家和保护专家组成的团队正在收集来自各种物种的广泛数据,并构建机器学习模型来分析它们。其他团体,例如鲸目动物翻译计划(CETI),则专注于尝试理解特定物种,在本例中是抹香鲸。

解码动物发声可能有助于保护和福利工作。它也可能对我们产生惊人的影响。拉斯金将即将到来的革命比作望远镜的发明。“我们仰望宇宙,发现地球不是中心,”他说。他认为,人工智能重塑我们对动物理解的能力将产生类似的影响。“这些工具将改变我们看待自身与万物关系的方式。”

当肖恩·格罗(Shane Gero)在多米尼加结束一天的野外工作后下研究船时,他很兴奋。他研究的抹香鲸有复杂的社会群体,在这一天,一只熟悉的年轻雄性鲸鱼回到了它的家庭,这为格罗和他的同事们提供了一个机会来记录鲸群重聚时的发声。

近 20 年来,格罗是渥太华卡尔顿大学的常驻科学家,他详细记录了加勒比海碧绿水域中两个抹香鲸家族的情况,捕捉到它们的咔哒声以及动物发出声音时的行为。他发现鲸鱼似乎使用特定的声音模式,称为“尾音”,来识别彼此。它们学习这些尾音的方式很像幼儿学习单词和名字,通过重复周围成年鲸鱼发出的声音。

在手动解码了一些尾音后,格罗和他的同事们开始怀疑他们是否可以使用人工智能来加速翻译。作为概念验证,该团队将格罗的一些录音输入到一个神经网络中,这是一种通过分析数据来学习技能的算法。它能够正确识别来自尾音的一小部分个体鲸鱼,准确率达到 99%。接下来,该团队设定了一个雄心勃勃的新目标:监听大片海洋,希望训练计算机学习“鲸语”。鲸目动物翻译计划(Project CETI)计划部署一个连接到浮标的水下麦克风,以全天候记录多米尼加常驻鲸鱼的发声。

随着传感器变得更便宜,以及水听器、生物记录器和无人机等技术的改进,动物数据量呈爆炸式增长。突然间,生物学家有太多的数据无法有效地手动筛选。然而,人工智能在海量信息中蓬勃发展。诸如 ChatGPT 之类的大型语言模型必须摄取大量的文本才能学习如何响应提示:ChatGPT-3 接受了大约 45 TB 的文本数据训练,这相当于美国国会图书馆的很大一部分。早期的模型需要人类用标签对大部分数据进行分类。换句话说,人们必须教机器什么是重要的。但是,下一代模型学会了“自我监督”,自动学习什么是必要的,并独立创建一种算法来预测序列中接下来会出现哪些词语。

2017 年,两个研究小组发现了一种在人类语言之间进行翻译的方法,而无需罗塞塔石碑。这项发现的关键是将词语之间的语义关系转化为几何关系。机器学习模型现在能够通过对齐它们的形状来在未知的人类语言之间进行翻译——例如,使用“母亲”和“女儿”等词语彼此相邻出现的频率来准确预测接下来会出现什么。“似乎存在着一种隐藏的潜在结构将我们所有人团结在一起,”拉斯金说。“机器学习解码我们尚不知道如何解码的语言的大门已经打开。”

该领域在 2020 年迎来了另一个里程碑,当时自然语言处理开始能够“将一切都视为一种语言”,拉斯金解释道。以 DALL-E 2 为例,它是可以根据口头描述生成逼真图像的人工智能系统之一。它以惊人的准确度将代表文本的形状映射到代表图像的形状——这正是动物交流翻译可能需要的“多模态”分析类型。

许多动物同时使用不同的交流模式,就像人类在说话时使用肢体语言和手势一样。在发出声音之前、期间或之后立即做出的任何动作都可以为理解动物试图表达的内容提供重要的背景信息。传统上,研究人员已将这些行为编目在一个称为行为图谱的列表中。通过正确的训练,机器学习模型可以帮助解析这些行为,并可能在数据中发现新的模式。例如,去年在《自然通讯》杂志上发表文章的科学家报告说,一个模型发现了以前未被识别出的差异,即雌性斑胸草雀在选择配偶时会注意到的歌曲差异。雌性更喜欢与像她们从小一起长大的鸟类一样唱歌的伴侣。

您已经可以将一种人工智能驱动的分析与 Merlin 一起使用,Merlin 是康奈尔鸟类学实验室的免费应用程序,用于识别鸟类物种。为了通过声音识别鸟类,Merlin 会获取用户的录音并将其转换为频谱图——鸟类鸣叫的音量、音高和长度的可视化表示。该模型在康奈尔音频库上进行训练,并将其与用户的录音进行比较,以预测物种识别。然后,它将此猜测与 eBird(康奈尔的全球观测数据库)进行比较,以确保它是在用户所在位置可以找到的物种。Merlin 可以非常准确地识别 1000 多种鸟类的鸣叫声。

但是世界很吵,从嘈杂声中挑出一种鸟或鲸鱼的曲调是很困难的。分离和识别个体说话者的挑战,被称为“鸡尾酒会问题”,长期以来一直困扰着动物发声的处理工作。2021 年,地球物种项目构建了一个神经网络,可以将重叠的动物声音分离成单独的音轨,并过滤背景噪音,例如汽车喇叭声——并且免费发布了开源代码。它的工作原理是创建声音的可视化表示,神经网络使用该可视化表示来确定哪个像素是由哪个说话者产生的。此外,地球物种项目最近开发了一个所谓的“基础模型”,可以自动检测和分类数据集中的模式。

新喀里多尼亚乌鸦以其工具制造能力而闻名,它们具有区域独特的发声,有一天可以使用人工智能进行破译。图片来源:Jean-Paul Ferrero/Auscape International Pty Ltd/Alamy Stock Photo

这些工具不仅正在改变研究,而且还具有实际价值。如果科学家能够翻译动物的声音,他们也许能够帮助濒危物种。夏威夷乌鸦,当地被称为 ‘Alalā,在 2000 年代初期在野外灭绝。最后几只鸟被带入圈养以启动保护繁殖计划。鲁茨扩展了他对新喀里多尼亚乌鸦的研究工作,现在正与地球物种项目合作研究夏威夷乌鸦的词汇。“这个物种已经从其自然环境中移除了很长时间,”他说。他正在编制一份圈养鸟类目前使用的所有鸣叫声清单。他将把它与最后几只野生夏威夷乌鸦的历史录音进行比较,以确定它们的曲目在圈养中是否发生了变化。他想知道它们是否可能失去了重要的鸣叫声,例如与掠食者或求爱有关的鸣叫声,这可能有助于解释为什么将乌鸦重新引入野外如此困难。

机器学习模型有一天也可以帮助我们弄清楚我们的宠物。《追逐杜立德医生:学习动物的语言》的作者康·斯洛博奇科夫(Con Slobodchikoff)说,长期以来,动物行为学家并没有过多关注家养宠物。当他开始他的职业生涯研究草原犬鼠时,他很快就欣赏了它们复杂的叫声,这些叫声可以描述掠食者的大小和形状。这种经历帮助启发了他后来的工作,即担任行为顾问,为行为不端的狗提供咨询。他发现他的许多客户完全误解了他们的狗试图表达的内容。当我们的宠物试图与我们交流时,它们通常会使用多模态信号,例如吠叫声加上身体姿势。然而,“我们太专注于声音是唯一有效的交流元素,以至于我们错过了许多其他线索,”他说。

现在,斯洛博奇科夫正在开发一种人工智能模型,旨在为其主人翻译狗的面部表情和吠叫声。他毫不怀疑,随着研究人员将研究扩展到家养动物,机器学习的进步将揭示宠物令人惊讶的能力。“动物有自己的想法、希望,甚至可能是梦想,”他说。

农场动物也可以从这种深入的理解中受益。哥本哈根大学动物行为学副教授埃洛迪·F·布里弗(Elodie F. Briefer)已经表明,根据动物的发声来评估动物的情绪状态是可能的。她最近创建了一种算法,该算法在数千种猪叫声上进行训练,使用机器学习预测动物是否正在经历积极或消极的情绪。布里弗说,更好地掌握动物体验情感的方式可能会促使人们努力改善它们的福利。

但是,尽管语言模型在寻找模式方面表现出色,但它们实际上并没有破译意义——而且它们绝对并非总是正确的。即使是人工智能专家也常常不理解算法如何得出结论,这使得验证它们变得更加困难。本杰明·霍夫曼(Benjamin Hoffman)在加入地球物种项目之前曾帮助开发 Merlin 应用程序,他说,科学家现在面临的最大挑战之一是如何从这些模型发现的内容中学习。

“在机器学习方面做出的选择会影响我们可以提出的科学问题类型,”霍夫曼说。他解释说,Merlin Sound ID 可以帮助检测哪些鸟类存在,这对于生态研究很有用。但是,它无法帮助回答有关行为的问题,例如,当个体鸟类与潜在配偶互动时,它们会发出哪些类型的鸣叫声。霍夫曼说,在尝试解释不同类型的动物交流时,研究人员还必须“理解计算机在学习如何做到这一点时正在做什么”。

省理工学院计算机科学与人工智能实验室主任丹妮拉·鲁斯(Daniela Rus)向后靠在办公室扶手椅上,周围环绕着书籍和成堆的论文。她渴望探索机器学习为研究动物交流开辟的新可能性。鲁斯之前曾设计遥控机器人,与生物学家罗杰·佩恩(Roger Payne)合作收集鲸鱼行为研究的数据,佩恩在 1970 年代对座头鲸歌曲的录音帮助普及了“拯救鲸鱼”运动。现在,鲁斯正在将其编程经验带入鲸目动物翻译计划(Project CETI)。用于水下监测的传感器已迅速发展,提供了捕获动物声音和行为所需的设备。能够分析这些数据的人工智能模型也得到了显着改进。但是直到最近,这两个学科还没有结合起来。

在鲸目动物翻译计划(Project CETI)中,鲁斯的第一个任务是将抹香鲸的咔哒声从海洋领域的背景噪音中隔离出来。与二进制代码相比,抹香鲸的发声在表示信息的方式上要长得多。但它们比这更复杂。在开发出精确的声学测量方法后,鲁斯使用机器学习来分析这些咔哒声如何组合成尾音,寻找模式和序列。“一旦你有了这种基本能力,”她说,“那么我们就可以开始研究语言的一些基本组成部分是什么。”鲁斯说,该团队将直接解决这个问题,“分析[抹香鲸]词汇是否具有语言的属性。”

但是,掌握语言的结构并不是说这种语言的先决条件——至少现在不是了。现在,人工智能可以获取三秒钟的人类语音,然后以完全模仿的方式,用相同的模式和语调滔滔不绝地说话。拉斯金预测,在未来一两年内,“我们将能够为动物交流构建这个模型。”地球物种项目已经在开发模拟各种物种的人工智能模型,目的是与动物进行“对话”。他说,双向交流将使研究人员更容易推断动物发声的含义。

地球物种项目计划与外部生物学家合作,测试回放实验,在实验室环境中向斑胸草雀播放人工生成的鸣叫声,然后观察鸟类的反应。拉斯金断言,很快“我们将能够通过草雀、乌鸦或鲸鱼图灵测试”,指的是动物无法分辨它们是在与机器还是与同类交谈的点。“情节反转是,我们将在理解之前就能够交流。”

这项成就的前景引发了伦理方面的担忧。《生命之声:数字技术如何拉近我们与动植物世界的距离》的作者、数字创新研究员凯伦·巴克(Karen Bakker)解释说,可能会有意想不到的后果。商业行业可能会使用人工智能进行精确捕鱼,方法是监听目标物种或其捕食者的群体;偷猎者可以部署这些技术来定位濒危动物,并模仿它们的叫声来引诱它们靠近。对于座头鲸等神秘歌曲可以以惊人的速度在海洋中传播的动物来说,合成歌曲的创作可能会“将病毒式模因注入世界种群”,从而产生未知的社会后果,巴克说。

到目前为止,处于动物交流工作前沿的组织都是像地球物种项目这样的非营利组织,它们致力于开源共享数据和模型,并由对其研究动物充满热情的科学家组成。但是,该领域可能不会保持这种状态——以营利为目的的参与者可能会滥用这项技术。鲁茨和他的合著者在《科学》杂志上发表的一篇最新文章中指出,“迫切需要最佳实践指南和适当的立法框架”。拉斯金警告说,“仅仅制造技术是不够的。“每次你发明一项技术时,你也会发明一种责任。”

正如鲸目动物翻译计划(Project CETI)所渴望的那样,设计一个“鲸鱼聊天机器人”并不像弄清楚如何复制抹香鲸的咔哒声和口哨声那么简单;它还需要我们想象动物的体验。尽管存在巨大的身体差异,但人类实际上与其他动物共享许多基本的交流形式。以父母与后代之间的互动为例。例如,哺乳动物婴儿的哭声可能非常相似,以至于白尾鹿会回应土拨鼠、人类或海豹发出的呜咽声。不同物种的发声表达也可以以类似的方式发展。就像人类婴儿一样,港海豹幼崽学会改变它们的音高以对准父母的耳膜。幼年鸣禽和人类幼儿都参与咿呀学语——“从导师那里学到的一系列复杂的音节,”马里兰大学大脑与行为倡议研究科学家乔纳森·弗里茨(Johnathan Fritz)解释道。

然而,动物的叫声在它们传达的内容方面是否与人类语言相当,仍然存在深刻的分歧。“有些人会断言,语言的本质定义使得人类成为唯一能够使用语言的动物,”巴克说,语言有语法和句法规则。怀疑论者担心,将动物交流视为语言或试图翻译它可能会扭曲其含义。

拉斯金对这些担忧不屑一顾。他怀疑动物是否在说“把香蕉递给我”,但他怀疑我们会发现一些共同经历的交流基础。“如果我们在不同物种中发现[表达]‘悲伤’或‘母亲’或‘饥饿’,我不会感到惊讶,”他说。毕竟,化石记录表明,鲸鱼等生物已经发声了数千万年。“为了让某种东西长期生存,它必须编码一些非常深刻和非常真实的东西。”

最终,真正的翻译可能不仅需要新工具,还需要超越我们自己的偏见和期望的能力。去年,当我家后面的积雪消退时,一对沙丘鹤开始在荆棘丛中潜行。求偶开始了,雄性殷勤而梳妆打扮。很快,每天早上,一只鸟独自飞出去觅食,而另一只鸟则留在后面照顾它们的蛋。我们陷入了一种习惯,鸟和我:当太阳升到山顶时,我一直关注着窗外,数着日子,因为我设想细胞分裂,新翅膀在温暖的羊膜黑暗中形成。

然后有一天早上,它结束了。在房子后面的某个地方,鸟儿开始哀嚎,将它们的声音缠绕成一声刺耳的哭声,直到我突然看到它们都跑下山坡,开始断断续续地飞行。它们盘旋了一圈,然后消失了。我等了几天,但我再也没有见过它们。

我想知道它们是否在为失败的巢穴哀悼,或者我是否过度解读了它们的行为,我联系了乔治·哈普(George Happ)和克里斯蒂·云克(Christy Yuncker),他们是退休科学家,在阿拉斯加与一对他们昵称为米莉和罗伊的野生沙丘鹤分享了他们的池塘。他们向我保证,他们也曾见过鸟类对死亡做出反应。在米莉和罗伊的一只幼鹤去世后,罗伊开始捡起草叶,并将它们扔在它后代的尸体附近。那天晚上,当太阳滑向地平线时,这个家庭开始跳舞。幸存的幼鹤加入了它的父母,它们旋转、跳跃,将它们的长脖子向后仰向天空。

哈普知道批评家可能会不赞成他们将鸟类的行为解释为悲伤,考虑到“我们无法精确地指定潜在的生理相关性”。但基于研究人员对这对鹤夫妇十多年的密切观察,他写道,将这些引人注目的反应解释为缺乏情感“与证据背道而驰”。

每个人最终都可以体会到失去亲人的痛苦。这是一个成熟的翻译时刻。

也许任何语言的真正价值在于它可以帮助我们与他人建立联系,从而将我们从自己思想的束缚中解放出来。每年春天,当阳光扫过云克和哈普的家时,他们都会等待米莉和罗伊回来。2017 年,他们徒劳地等待着。其他鹤争夺这片领地。两位科学家错过了观看幼鹤孵化和成长的机会。但是去年夏天,一对新的鹤夫妇筑巢了。不久之后,它们的幼鹤从高高的草丛中探出头来,乞求食物并学习跳舞。生命开始了一个新的循环。“我们总是看着大自然,”云克说,“但实际上,我们是大自然的一部分。”

© . All rights reserved.