语音识别软件如何歧视少数族裔的声音

除非程序员认识到他们自身的内在偏见,否则他们创造的软件将存在问题

马丁·吉

加入我们的科学爱好者社区!

“Clow-dia,”我说了一遍。两遍。第三遍。我放弃了,说了我的名字的美国化版本:“Claw-dee-ah。” 最终,Siri 识别出来了。对于那些母语不是英语或没有传统美式发音名字的人来说,不得不调整我们的说话方式来与语音识别技术互动是一种熟悉的体验。我已经停止使用苹果的语音虚拟助手 Siri,就是因为这个原因。

这项技术在过去十年中的发展——不仅是 Siri,还有 Alexa 和 Cortana 等等——揭示了其中的一个问题:种族偏见。最近一项发表在《美国国家科学院院刊》上的研究表明,语音识别程序对黑人说话者存在偏见。作者发现,平均而言,包括苹果和微软在内的领先科技公司的所有五个程序都显示出明显的种族差异;它们错误转录黑人说话者音频的可能性大约是白人说话者的两倍。

这有效地审查了不属于用于创建这些技术的“标准”语言或口音的声音。“除非我调整我的语言模式,否则我无法与这些设备协商,”托森大学技术传播和信息设计助理教授 哈尔西恩·劳伦斯 说,她没有参与这项研究。“这很有问题。” 对于劳伦斯,她有特立尼达和多巴哥口音,或者像我这样的波多黎各人,我们身份的一部分来自于说一种特定的语言,拥有口音或使用一套语音形式,例如非裔美国人白话英语 (AAVE)。不得不改变身份中如此重要的一部分才能被识别,这本身就是一种残忍。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


无法被理解也会影响其他边缘化社区,例如依赖语音识别和语音转文本工具的视力或行动障碍人士,《PNAS》研究的计算研究生和第一作者艾莉森·科内克说。对于依赖这些技术的残疾人来说,被误解可能会产生严重的后果。造成这些差异的原因可能有很多,但科内克指出了最可能的原因:用于训练的数据主要来自美国英语的白人母语人士。通过使用在所用词汇和说话方式上都很狭隘的数据库,训练系统排除了具有独特语言特征的口音和其他说话方式。人类,包括那些创造这些技术的人,大概都存在口音和语言偏见。例如,研究表明,口音的存在会影响陪审员是否认为被告有罪以及患者是否认为他们的医生称职

认识到这些偏见将是避免在技术中实施它们的重要方法。但是,开发更具包容性的技术需要时间、精力和金钱,而且通常投资这些的决定是由市场驱动的。(在回应多项查询时,只有谷歌发言人及时回复以供发布,部分内容是:“多年来,我们一直致力于准确识别语音变体的挑战,并将继续这样做。”)

加州大学洛杉矶分校信息研究副教授 萨菲亚·诺布尔 承认这是一个棘手的挑战。“语言是情境化的,”诺布尔说,她没有参与这项研究。“但这并不意味着公司不应该努力减少偏见和差距。” 为了做到这一点,他们需要人文和社会科学家的投入,他们了解语言的实际运作方式。

从技术方面来看,科内克说,向程序输入更多样化的训练数据可以弥合这一差距。诺布尔补充说,科技公司还应该更广泛地测试他们的产品,并拥有更多样化的员工队伍,以便来自不同背景和视角的人可以直接影响语音技术的设计。科内克建议,自动语音识别公司应将《PNAS》研究作为初步基准,并随着时间的推移不断使用它来评估他们的系统。

与此同时,我们中的许多人将继续在身份和与 Alexa、Cortana 或 Siri 互动时被理解之间挣扎。但劳伦斯每次都选择身份:“我不会切换,”她说。“我不会那样做。”

© . All rights reserved.