你的大脑如何区分语音和音乐

简单的线索帮助人们区分歌曲和口语

Illustration of ear with sound waves on blue background

Peterschreiber.media/Getty Images

人们通常不会混淆歌唱和说话的声音。这似乎是显而易见的,但实际上非常令人印象深刻——尤其因为即使我们遇到从未听过的语言或音乐类型,通常也能区分两者。人类大脑究竟是如何毫不费力且瞬间做出这种判断的?

科学家们对语音如何转化为句子以及音乐声音如何触动我们的情感,已经有了相对丰富的理解。当声波撞击我们的耳朵时,它们会激活内耳耳蜗内的听觉神经。反过来,听觉神经会将信号传输到大脑。这些信号沿着所谓的听觉通路传播,首先到达处理各种声音的子区域,然后到达专门的音乐或语言子区域。根据信号最终到达的位置,人会将声音理解为特定类型的有意义的信息——并且可以区分咏叹调和口语句子。

这就是声音处理的概括性描述。但是,我们的感知系统如何在听觉通路中区分这些声音,仍然令人惊讶地不清楚。当然,有一些线索:音乐和语音波形具有不同的音高(听起来高或低的音调)、音色(声音的质量)、音素(语音声音单位)和旋律。但是,大脑的听觉通路并非一次处理所有这些元素。考虑一下从纽约市寄信到台北的类比。信件的内容详细解释了其目的,但信封仍然必须标明其目的地。同样,即使语音和音乐都包含大量信息,我们的大脑也需要一些基本的线索来快速确定要调动哪些区域。


支持科学新闻事业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


神经科学家的问题是,大脑如何决定将传入的声音发送到语言区域还是音乐区域进行详细处理。我在纽约大学、香港中文大学和墨西哥国立自治大学的同事和我决定研究这个谜团。在我们去年春天发表的一项研究中,我们提出的证据表明,声音的一个简单属性,即幅度调制——它描述了一系列声音的音量或“幅度”随时间变化的快慢——是大脑快速声学判断的关键线索。我们的发现暗示了音乐和语音对人类物种的不同进化作用。

过去的研究表明,语音的幅度调制率在不同语言中高度一致,测量结果为每秒四到五个赫兹,这意味着声波每秒有四到五个起伏。同时,音乐的幅度调制率在不同类型音乐中是一致的,约为一到两个赫兹。换句话说:当我们说话时,在给定的时间跨度内,我们声音的音量变化比唱歌时快得多。

鉴于这种模式的跨文化一致性,我们想知道幅度调制是否可能反映了一种普遍的生物学特征,这种特征在人脑区分语音和音乐方面起着关键作用。我们制作了特殊的白噪声音频片段,在其中调整了音量和声音随时间变化的快慢。我们还调整了这种变化的规律性——也就是说,音频是否具有可靠的节奏。我们使用这些白噪声片段而不是真实的音频录音,以便更好地控制幅度调制的效果,而不是声音的其他方面,例如音高或音色。

在针对 300 多名参与者的四项实验中,我们要求人们收听这些音频文件,并告诉我们它们听起来更像语音还是音乐。结果揭示了一个非常简单的原则:幅度调制率较慢且节奏更规则的音频片段更有可能被判断为音乐,而相反的模式适用于语音。这表明我们的大脑将较慢、较规则的幅度变化与音乐联系起来,而将较快、不规则的变化与语音联系起来。

这些发现激发了关于人类思维的更深层次的问题。首先,为什么语音和音乐的幅度随时间变化如此不同?进化假设提供了一些可能的答案。人类使用语音进行交流。当我们说话时,我们会调动声道的肌肉,包括下巴、舌头和嘴唇。移动这些肌肉进行说话的舒适速度约为每秒四到五个赫兹。有趣的是,我们对这种速度的声音的听觉感知得到了增强。速度、产生和感知上的这种一致性可能并非巧合。一种可能的解释是,人类以这种神经生理学优化的快速速度说话,以确保有效的信息交换——而这种快速说话可以解释语音中幅度调制率高于音乐。

另一方面,关于音乐进化起源的一种假设是,它通过协调多个人的活动和运动,有效地在社会内部建立社会联系,例如通过亲子互动、集体舞蹈和劳动号子。研究表明,当人们同步运动时,他们会更紧密地联系在一起。因此,音乐要发挥其进化功能,可能需要以允许舒适的人类运动的速度进行,大约为每秒一到两个赫兹或更低。此外,可预测的节拍使音乐更适合集体跳舞。

还有许多问题需要探索。还需要进行更多研究,以了解大脑是否从出生起就能够根据声学调制来区分音乐和语音,或者是否依赖于学习到的模式。理解这种机制可能有助于患有失语症(一种影响语言交流的疾病)的患者,通过速度和规律性经过仔细调整的音乐来理解语言。我们的进化概念也值得进一步研究。关于音乐和语音的进化起源存在各种假设,这些假设可能会激发其他研究。更多的跨文化研究可以确保这些想法在所有社群中真正成立。

至于大脑如何在听觉通路中区分音乐和语音,我们怀疑还有更多内容有待发现。幅度调制很可能只是一个因素——或许只是寻址信封上的一行字——可以帮助解释我们大脑惊人的辨别能力。

您是专门研究神经科学、认知科学或心理学的科学家吗?您是否读过最近发表的同行评审论文,并想为“心灵 Matters”撰写文章?请将建议发送给《大众科学》的“心灵 Matters”编辑 Daisy Yuhas,邮箱为dyuhas@sciam.com

这是一篇观点和分析文章,作者或作者表达的观点不一定代表《大众科学》的观点。

Andrew Chang 是纽约大学的博士后研究员,他的工作得到了美国国立卫生研究院 Ruth L. Kirschstein 博士后个人国家研究服务奖和 Leon Levy 神经科学奖学金的支持。他研究听觉感知的神经机制以及人们在现实世界中使用音乐和语音进行互动的方式。

更多作者文章:Andrew Chang
大众科学 Magazine Vol 332 Issue 1本文最初以 “你的大脑区分语音和音乐” 为标题发表于 《大众科学》杂志 第 332 卷第 1 期(),第 79 页
doi:10.1038/scientificamerican012025-6UBWwE1Ha8NBo3eVfDQx7B
© . All rights reserved.