从史密斯飞船到帕瓦罗蒂 -- 人类如何歌唱

歌手的声音是如何产生那些惊人声音的?

时间是1974年,哈里·考尔正在监视一对在旧金山拥挤的联合广场散步的夫妇。他使用猎枪麦克风秘密录制他们的谈话,但在关键时刻,附近的打击乐队淹没了谈话。最终,哈里不得不使用一种不可思议的小工具,从录音中提取出几乎听不见的话语,“如果他有机会,他会杀了我们。”

这段音频取证在三十多年前的电影《对话》中出现时,还属于科幻范畴。今天有可能实现吗?

从多重对话中理清混乱的谈话,俗称“鸡尾酒会问题”,研究人员在过去十年中已经取得了许多突破。当多个人同时说话时,人类听众可以选择性地忽略除了感兴趣的说话者之外的所有人。与人不同,机器在嘈杂的环境中,尤其是在背景语音嘈杂的情况下,在识别语音方面一直非常不可靠。语音识别技术正变得越来越普及,现在被用于向计算机、电话和GPS设备口述文本和命令。但是,如果两个人同时说话,你除了得到胡言乱语之外,什么也得不到。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的有影响力的故事的未来。


最近的大量研究都集中在鸡尾酒会问题上。2006年,英国谢菲尔德大学的马丁·库克和加州大学圣地亚哥分校的李德元组织了一项语音分离“挑战”,这是一项旨在比较分离和识别两位说话者混合语音的不同方法的任务。从那时起,世界各地的研究人员已经构建了系统,彼此竞争,并与最终的基准:人类听众竞争。

在这里,我们调查了语音分离的计算挑战,并概述了用于解决该问题的技术。特别是,我们描述了我们三人(以及我们的同事谷歌的特劳斯蒂·T·克里斯蒂扬松)在分离挑战中使用的“超人”算法的工作原理。然后,我们描述了一种后续算法,它可以有效地解决更复杂的,具有两个以上说话者的分离问题,而使用原始方法需要花费很长时间才能解决。(另请参阅《大众科学》2011年4月刊的“解决鸡尾酒会问题”一文。)

1. 自己尝试
为了了解语音分离算法所面临的挑战,请尝试听清挑战中使用的一些重叠语音中的目标词。样本中说出的所有句子都使用非常有限的词汇,并且具有与以下示例相同的简单结构:“现在将红色放在C2位置。” (如果你想象它们是在棋盘游戏中如何使用彩色标记的说明,这些句子可能看起来不那么奇怪。)

在每个混合语音中,其中一个说话者会提到“白色”。您的目标是辨别关于“白色”的句子中说出的字母-数字组合(例如示例中的“C2”)。

 

有限的词汇和简化的语法使得研究可以专注于分离重叠语音的挑战,而无需识别更复杂的发音所需的基础设施。这些算法处理了数千个这样的测试样本,这些样本在几个方面有所不同。在某些样本中,“目标”和“掩蔽”说话者的声音大小相同,但大多数情况下它们的音量略有或中等差异。“目标”和“掩蔽”说话者可能性别不同或性别相同,甚至可能是同一个人说出两个句子。当目标是同一个人,以与掩蔽者相同的或略低的音量说话时,人类听众的困难最大。

2. 频谱图如何表示语音

 

为了分离多个说话者的语音或识别一个人的语音,计算机通过其频谱来表示声音信号,即声音在每个频率上的能量。频谱图显示频谱如何随时间变化,每个点的颜色表示该频率和时间的声音能量。频谱图传达了识别语音所需的所有信息。事实上,麻省理工学院的计算机科学家维克多·祖曾经教授一门关于如何通过仅仅查看频谱图来转录语音的课程。

为了生成频谱图,软件将声音信号划分为短的,重叠的时间段,称为帧,每个帧大约40毫秒长(1/25秒)。重叠避免了在每个帧的开始和结束时丢失信息。确定每个帧的声音频谱。因此,频谱图是一系列单独的频谱,每个帧一个。语音识别和语音分离通常通过一次移动一个频谱图帧来实现。

3. 重叠语音的频谱图

 

将音频源混合在一起有点像将牛奶倒入咖啡中。一旦它们混合在一起,就没有简单的方法可以将它们分开。在每个时间帧中,每个源的频谱基本上加在一起。原则上,将声音分成两部分就像问“如果x加y等于10,那么x和y是多少?”一样任意。

在真正的鸡尾酒会上,您可以通过拥有两只耳朵获得一些额外的信息。每只耳朵检测到的略有不同的声音会告诉您声音的来源方向,这可以帮助您从人群中挑出一个说话者。但是,如果两个人处于同一大方向,并且计算机也没有处理用单个麦克风录制的录音,则您将不会获得这种帮助。语音分离挑战侧重于此问题的“单声道”版本。

幸运的是,正如查看频谱图所见,语音的声音具有很多结构。所有语音分离方法都在某种程度上利用了这种结构。

© . All rights reserved.