听音辨位

一种能够同时理解三位说话者的机器听觉系统

圣德太子是一位七世纪的政治家，被认为是日本第一部宪法的作者。他以国家建设者的身份闻名，据说他能够同时倾听多人的声音，一次听取多达 10 位请愿者的请求，然后做出判断或建议。

受这位传奇王子的启发，日本研究人员花费五年时间开发了一种人形机器人系统，该系统可以理解并响应同时说话的人。他们假设了一个餐厅场景，机器人是服务员。当三个人站在机器人面前同时点猪排套餐或法式晚餐时，机器人可以理解约 70% 的内容，并通过重复每个订单并给出总价来做出回应。这个过程不到两秒钟，而且至关重要的是，不需要事先进行语音训练。

这种听觉能力标志着人工智能领域的一个根本挑战——如何教机器在喧嚣中挑选出重要的声音。这被称为鸡尾酒会效应，大多数机器的表现并不比喝了几杯马提尼酒的人类好。“机器人很难在嘈杂的环境中识别说话者，”京都大学的冈野博司 G.（Hiroshi G. Okuno）说，他是该团队的负责人，也是该领域的先驱。混响、无关的声音和其他信号中断也带来了困难。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。

事实上，与机器进行轻松自然语言交流的时代，至少从艾伦·图灵时代起就一直被人们梦想着，对于日常用户来说似乎还很遥远。一个幽默的例子：微软去年现场演示了 Windows Vista 语音识别功能，该功能错误地识别了问候语“亲爱的妈妈”，以及试图纠正错误的口头尝试，产生了“亲爱的阿姨，让我们设置双倍杀手删除全部”。

相比之下，冈野的系统非常准确，并且不需要说话者佩戴耳机（与商业语音识别程序不同），因为麦克风嵌入在机器人中。他的所谓机器听觉程序执行所谓的计算听觉场景分析，该分析结合了数字信号处理和统计方法。它首先定位音频源，然后使用计算滤波器分离声音。下一步是关键：自动缺失特征掩码生成。这种强大的技术会掩盖系统认为不可靠的听觉数据，例如串音，因为它试图专注于特定的说话者。然后，系统将处理后的信息与日语中 5000 万个话语的内部数据库进行比较，以找出说了哪些词。当回放每个说话者的过滤版本时，只能听到来自其他说话者的一些声音。

结果是一个强大的机器人听众，它比其他系统更接近人脑的听觉能力。冈野说，根据说话者的相对角度和使用的麦克风数量（目前为八个），它可以处理多达六个说话者。机器人也可以移动并朝向说话者，从而提高性能。

哥伦比亚大学语音与音频识别与组织实验室负责人丹·埃利斯（Dan Ellis）评论说：“冈野的机器人理解重叠声音的项目在结合多麦克风源定位的最佳想法与强大的缺失特征语音识别技术方面做得非常出色。“他的工作之所以与众不同，是因为他致力于解决实际部署中出现的所有实际问题……并制造出……能够使机器人理解其在现实世界中的人类对话者的东西。”

除了提供快餐外，冈野的机器人还可以带来一种同样擅长减少噪音干扰的助听器。冈野认为，这种设备可以与复杂的自动释义系统结合使用，这将更加重要，因为听力障碍人士在对话中严重依赖语境。冈野本人在多年通过耳机听大音量音乐后，如果没有助听器就几乎失聪。“人形机器人目前的听力能力与我相似，”他笑着说。

冈野预计会有更广泛的应用。“在不久的将来，许多电器都将嵌入麦克风，”他预测道——并且将做的不仅仅是问你是否要搭配薯条。