人工智能开发出识别鸟鸣的“耳朵”

机器学习算法可以快速处理数千小时的自然声音景观

Bright Yellow Warbler perched on tree branch with open beak, singing.

优胜美地国家公园中的雄性黄莺。

如果我们多倾听大自然,就能从中学习到很多东西——世界各地的科学家们正在努力做到这一点。从山峰到海洋深处,生物学家们越来越多地安装录音设备,以便不引人注意地窃听鲸鱼、大象、蝙蝠,特别是鸟类的呻吟、尖叫、口哨和鸣叫声。例如,今年夏天,将有超过2000个电子耳朵记录加利福尼亚州内华达山脉的声音景观,产生近一百万小时的音频。为了避免花费人类多个生命周期来解码这些音频,研究人员正在依靠人工智能。

这些录音可以创建有价值的动物群落快照,并帮助自然资源保护主义者详细了解政策和管理措施如何影响整个种群。收集有关某个地区物种和个体数量的数据只是一个开始。内华达山脉的声音景观包含了关于去年历史性野火如何影响该地区不同栖息地和生态条件下的鸟类的重要信息。这些录音可以揭示各种动物种群如何度过这场灾难,以及哪些保护措施可以更有效地帮助物种反弹。

这些录音还可以捕捉到较大群体中个体之间互动的细节。例如,配偶如何在求偶的喧嚣中找到彼此?科学家们还可以利用声音来追踪迁徙时间或种群范围的变化。来自其他地方的大量音频数据也在涌入:正在进行基于声音的项目,以计数昆虫,研究光和噪声污染对鸟类群落的影响,追踪濒危物种,并在录音机检测到非法偷猎或伐木活动的噪声时触发警报。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造当今世界发现和思想的具有影响力的故事的未来。


“音频数据是一个真正的宝藏,因为它包含大量信息,”康奈尔大学的生态学家、博士后研究员康纳·伍德说,他正在领导内华达山脉的项目。“我们只需要创造性地思考如何共享和访问[这些信息]。”这是一个迫在眉睫的问题,因为人类需要很长时间才能从录音中提取有用的见解。幸运的是,最新一代的机器学习人工智能系统——可以从动物的叫声中识别物种——可以在不到一天的时间内处理数千小时的数据。

康奈尔鸟类学实验室保护生物声学中心助理主任劳雷尔·西姆斯说:“机器学习对我们来说是一个重大的改变。”她研究动物(包括蟋蟀、青蛙、蝙蝠和鸟类)的声音交流,并积累了数月的中美洲巴拿马雨林中鸣螽(一种以鸣叫著称的长角蚱蜢,是食物网的重要组成部分)的录音。繁殖活动和季节性种群变化的模式隐藏在这些音频中,但分析这些音频非常耗时:西姆斯和她的三位同事花了600个小时的工作时间才从10个小时的录音中对不同的鸣螽物种进行分类。但是她的团队正在开发的一种名为 KatydID 的机器学习算法,在其人类创造者“出去喝啤酒”的时候就完成了相同的任务,西姆斯说。

像 KatydID 这样的机器学习装置是自学习系统,它使用神经网络——“一个非常粗略的人脑近似模型”,康奈尔大学保护生物声学中心和德国开姆尼茨工业大学的机器学习专家斯特凡·卡尔解释说。他构建了BirdNET,这是当今最受欢迎的鸟类声音识别系统之一。伍德的团队将依靠 BirdNET 来分析内华达山脉的录音,其他研究人员正在使用它来记录法国布里埃地区自然公园光和噪声污染对晨曲的影响。

这些系统首先分析许多输入——例如,数百个录制的鸟鸣声,每个都用其对应的物种“标记”。然后,神经网络会自学哪些特征可用于将输入(在本例中为鸟的叫声)与标签(鸟的身份)相关联。由于通常涉及数百万个极其细微的特征,人类甚至无法知道其中大多数特征是什么。

旧版本的检测软件是半自动的。它们扫描频谱图(音频信号的可视化表示),以寻找已建立的特征,例如频率范围和持续时间,从而通过歌曲识别鸟类。这对某些物种来说效果很好。例如,北美红雀的歌曲通常以几个音调上升的长音开始,然后是音调明显下降的快速短音。可以很容易地从频谱图中识别出它,就像可以从乐谱中识别出创作的歌曲一样。但是,其他鸟类叫声更复杂且变化多端,可能会使旧系统感到困惑。“您需要的不只是签名来识别物种,”卡尔说。许多鸟类都有不止一种歌曲,并且像其他动物一样,它们通常有地区“方言”。来自华盛顿州的白冠麻雀的声音与加利福尼亚州的同类大相径庭。机器学习系统可以识别出这种细微差别。“假设今天推出了一首尚未发行的披头士乐队歌曲。您以前从未听过旋律或歌词,但您知道这是一首披头士乐队的歌曲,因为这就是他们听起来的样子,”卡尔解释说。“这些程序也学会了做到这一点。”

事实上,这些系统受益于最近在人类语音和音乐识别技术方面的进步。在与康奈尔鸟类学实验室的安德鲁·法恩斯沃思合作下,纽约大学音乐和音频研究实验室的专家们利用他们的音乐经验构建了一个名为 BirdVox 的鸟鸣识别系统。它可以检测和识别夜间迁徙的鸟类,并将鸟鸣声与背景噪音区分开来,包括青蛙和昆虫的叫声、人类的地面和空中交通,以及风和雨等来源——所有这些都可能非常响亮且多变。

每个系统的学习效果在很大程度上取决于可用的预标记录音的数量。对于常见的鸟类,已经存在大量此类数据。卡尔估计,网上有大约 420 万个录音可用于 10,000 个物种。但是,BirdNET 可以识别的 3000 多个物种中的大多数都可以在欧洲和北美找到,而 BirdVox 则进一步将重点缩小到美国鸟类的歌曲。

“在其他地方,对于较稀有的物种或没有经过良好分类的物种,[BirdNET] 的效果不佳,”印度生态学家 V. V. 罗宾说。他正在追踪杰顿鸻,这是一种濒临灭绝的夜行性鸟类,大约十年没有正式发现过。罗宾和他的合作者在印度南部的一个野生动物保护区放置了录音机,试图捕捉它的叫声。自 2009 年以来,他还一直在记录西高止山脉(印度南部的一个全球生物多样性热点)的鸟类。这些录音经过精心注释,以训练当地开发的机器学习算法。

公民科学家还可以帮助填补鸟鸣存储库中的空白。BirdNET 为一款智能手机应用程序提供支持,该应用程序在业余观鸟者中非常受欢迎。他们录制音频片段并将其提交到该应用程序,该应用程序会告诉他们歌唱者的物种,并将录音添加到研究人员的数据库中。卡尔说,每天有超过 300,000 个录音涌入。

这些机器学习算法仍有改进的空间。尽管它们分析音频的速度比人类快得多,但它们在筛选重叠的声音以寻找感兴趣的信号方面仍然落后。一些研究人员认为这是人工智能要解决的下一个问题。然而,即使是当前不完善的版本,也能够实现人类独自处理太过耗时的大型项目。“作为生态学家,”伍德说,“像 BirdNET 这样的工具让我们敢于梦想。”

© . All rights reserved.