本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
走进一家拥挤的酒吧,音乐震耳欲聋,你的第一印象很可能是对突如其来的声浪感到一阵战栗——你最初会将其理解为单一的巨响。但很快,你就会适应,不同的声音开始浮现。我们通过调整神经元来适应特定的声音,从而忽略其他声音——比如酒吧另一端那个令人讨厌的、色迷迷的潜在情圣,或者所有环境噪音。
在 Scientopia 上,Scicurious 撰写了一篇关于神经科学家一项新的 MEG 研究,研究大脑如何处理所谓的“鸡尾酒会难题”——在拥挤房间的嘈杂声中区分出一个对话主题。这不仅仅是注意力的问题,尽管如果背景噪音太大,即使是最引人入胜的讨论也很难集中注意力。
大脑不仅检测声音,还处理语音的时间模式和视觉线索。后者是最新研究的基础,作者旨在衡量(正如 Scicurious 所说)“来自说话者面部的视觉输入是否可能帮助某人“预测”他们将要听到的内容,从而简化单词的处理。”正如预期的那样,他们发现人们在 一对一的情况下可以很好地进行对话,但在小型鸡尾酒会环境中会遇到困难。但是,如果在后一种环境中,他们能够看到与语音模式相符的面孔,他们的表现就会显着提高。 根据 Scicurious
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的具有影响力的故事。
为什么这会有帮助?可能是视觉输入帮助你保持注意力。视觉输入也可能帮助你预测接下来要说什么,并以这种方式帮助听觉处理。
这是科学作家们一直以来最喜欢的话题;我 早在 2011 年就写过关于它的博客,当时《大众科学》发表了格雷厄姆·柯林斯的一篇文章,讲述了当我们在拥挤的房间里(比如餐厅或鸡尾酒会)时,我们的大脑如何分离各种听觉流,那么为什么现在不重新回顾一下那篇经典文章呢?(就我个人而言,我的大脑在这方面一直不太擅长。我发现当噪音水平达到某个临界阈值时,我必须非常集中注意力。)科学家们在研究大脑如何完成这项壮举方面相当成功。他们在设计计算机算法来做同样的事情方面不太成功。
几年前,在一次声学会议上,我与马里兰大学帕克分校的研究员 Shihab Shamma 进行了交谈。他认为这种能力源于大脑中的听觉神经细胞,这些细胞作为适应过程的一部分,会重新调整自身以适应特定的声音。这有点像一个听觉反馈回路,使我们能够整理出令人困惑的传入声学刺激。
然而,令他惊讶的是,这个过程发生得如此之快:成年哺乳动物大脑中的听觉神经元在几秒钟内就完成了调整。对于 Shamma 来说,这表明已发育的大脑比以前认识到的更具“可塑性”或适应性。我们实际上是在改变我们的想法。
科学家们在理解导致这种快速调整的机制方面仍然有些茫然,但 Shamma 表示,如果我们能够模仿这些能力,它可能会导致开发更有效的助听器和人工耳蜗。在短期内,它可能通过教会自动语音识别系统过滤掉中等水平的背景噪音和其他声学“杂乱”,从而帮助改进它们。
这就引出了 2011 年的《大众科学》文章。显然,IBM 托马斯·J·沃森研究中心的一个研究团队已经设法为“鸡尾酒会难题”创建了一种算法,该算法的性能优于人类。为什么它如此困难,因此如此重要?这归结为可能的聲音组合数量,这些组合很快变得难以处理。以下是柯林斯如何描述它的
“无论是一个人说话还是多个人说话,声音都包含一个频谱的频率,并且每个频率的强度都在毫秒级的时间尺度上变化;声谱图显示了此类数据。标准的单人说话者语音识别在音素级别分析数据,音素是构成单词的单个声音单元……每个说出的音素在声谱图中都会产生可变但可识别的模式。统计模型……[指定] 预期的概率,例如,“哦”声音之后会跟“n”。识别引擎寻找最可能的音素序列,并尝试构建完整的单词和合理的句子。”
换句话说,语音识别的工作方式有点像自动更正——我们都知道当自动更正出现可怕的、可怕的错误时会发生什么。
柯林斯继续说道
“当两个人同时说话时,可能性的数量会爆炸式增长。每个时刻的频谱可能来自任何两个音素,以每个人在单词中可能使用的任何方式发出。每增加一个说话者,问题都会呈指数级恶化。”
好消息是,这种算法可以通过关注主要说话者来简化搜索——拜托,我们都知道在任何人群中至少有一个大嗓门。近年来,通过利用这类事物,已经设计出了许多捷径。“自下而上”的方法在声谱图中寻找没有主要说话者的片段,并将这些片段放在一边,实际上是从等式中删除它们,以便算法可以专注于在“干净区域”中查找音素序列——即,存在主要说话者的区域。显然,英格兰谢菲尔德大学的科学家们已经采用了这种方法。
或者,您可以使用“自上而下”的方法,设计一种算法来分析给定声谱图中所有说话者最可能的音素的试验序列。芬兰坦佩雷理工大学的研究人员通过在两个说话者之间切换来利用这种方法。正如柯林斯解释的那样,“在给定当前对说话者 A 的语音的最佳估计的情况下,搜索最能解释总声音的说话者 B 的语音。” 上下文决定一切。IBM 通过调整“自上而下”的方法并设计一种算法来寻找声谱图中一个说话者大声吼叫以至于掩盖了其他说话者声音的区域,从而实现了他们的“超人”自动化语音分离。
但您现在真的不必太担心特工会窃听您的派对客人:新算法并没有那么好。也许有一天会好。与此同时,请欣赏《蒂凡尼的早餐》中的这个经典派对场景,以说明鸡尾酒会难题可能有多么棘手。正如一位 YouTube 评论员所说,“除非有人对着镜子自言自语地又哭又笑,否则就不算派对。”
[改编自 2011 年 4 月存档的鸡尾酒会物理学博客文章。]