
以下文章经The Conversation许可转载,The Conversation是一个报道最新研究的在线出版物。
“Alexa,我是谁?” 亚马逊Echo的声控虚拟助手Alexa尚无法回答这个问题。然而,对于语音技术的其他应用,计算机算法越来越能够从录音中区分、识别和辨认个人。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续刊登关于塑造我们当今世界的发现和想法的有影响力的报道。
当然,这些算法远非完美,正如最近一位BBC记者闯入了自己的声控银行账户时所展示的那样 使用了他双胞胎兄弟的声音。这是否是计算机在人类可以完美完成的事情上失败的案例?我们决定找出答案。
每个人都拥有 独特且与众不同的声音。因此,我们似乎很直观地认为我们可以很容易地通过声音识别某人。但是,您实际上能做到多好呢?当涉及到识别您最亲近的家人和朋友时,您可能相当擅长。但是,如果您今天再次听到您的小学第一任老师的声音,您能认出来吗?今天早上在火车上对着手机大喊大叫的那个人呢?如果让您从他的笑声或歌声样本中而不是从他的说话声中认出他,又会怎样呢?
迄今为止,研究仅使用有限的一组发声来探索声音身份感知,例如朗读的句子或对话片段。这些研究发现,我们实际上可以 很好地识别熟悉的人的声音。但他们也表明存在问题:耳证证词是出了名的 不可靠和不准确的。
重要的是要记住,这些研究并没有捕捉到我们可以用声音发出的声音的很多灵活性。这势必会对我们处理我们正在听的声音背后的人的身份产生影响。因此,我们目前遗漏了拼图中非常重要且很大的一块。
识别声音需要两个广泛的过程协同运作:我们需要区分不同人的声音(区分人),并且我们需要能够将单一身份归因于可能来自同一人的所有不同声音(说话、笑、喊叫)(“将人联系在一起”)。我们着手调查人类在这方面的能力的极限。
声音实验
我们最近的研究, 发表在《实验心理学杂志:总论》上,证实了声音身份感知可能极具挑战性。利用一个人声音的可变性,我们向46名听众展示了五个人发出的笑声和元音。听众被要求对声音对做出非常简单的判断:它们是由同一个人发出的,还是由两个人发出的?只要他们可以将元音与元音或笑声与笑声进行比较,区分说话者就相对成功。
但是,当我们要求听众根据混合的声音对(例如,直接比较一对中的元音和笑声)做出此判断时,他们根本无法区分说话者——特别是当他们不熟悉说话者时。然而,即使一部分认识说话者的人总体表现更好,他们仍然在“将人联系在一起”的挑战中挣扎。
类似的效果已在研究报告中被报道,例如,研究表明, 跨两种语言识别双语说话者 很困难。这些发现令人惊讶的是,一旦听众接触到声音可能产生的自然变化,声音感知会变得多么糟糕。因此,有趣的是,虽然我们每个人都拥有独特的声音,但我们尚不知道这种独特性有多大用处。
但是,如果我们甚至无法识别它们,为什么我们会进化出独特的声音呢?到目前为止,这确实是一个悬而未决的问题。我们实际上并不知道我们是否进化出了独特的声音——我们也都拥有不同且在很大程度上独一无二的指纹,但就我们所知,这并没有任何进化优势。只是恰好基于解剖结构上的差异,可能最重要的是我们使用声音的方式,我们彼此听起来都不同。
幸运的是,计算机算法仍然能够充分利用人类声音的个性。在某些情况下,它们可能已经超越了人类——并且它们将不断改进。这些机器学习算法识别说话者的方式基于数学解决方案,以创建“声纹”——独特的表示形式,用于拾取每个人声音的特定声学特征。
与计算机相比,人类可能不知道他们在倾听什么,或者 如何分离出这些声学特征。因此,为算法创建声纹的方式并非严格模仿人类听众似乎在做的事情——我们仍在努力解决这个问题。从长远来看,观察人类听众和机器学习算法识别声音的方式是否存在任何重叠将是一件有趣的事情。虽然人类听众不太可能从计算机解决此问题的方式中获得任何见解,但反过来,我们也许能够构建模仿人类有效表现的机器。
有传言称,亚马逊目前正在研究如何教会Alexa 通过声音识别特定用户。如果这奏效,那将是一项真正令人印象深刻的壮举,并且可能会阻止 进一步订购不想要的娃娃屋。但是,如果Alexa犯了错误,请耐心等待——您自己可能也做不好。
本文最初发表于 The Conversation。阅读原文。