语音识别技术是又一个偏见的例子

Siri、Alexa 和其他程序有时难以识别许多代表性不足群体的口音和语调。

“Clow-dia,”我说了一遍。两遍。第三遍。 沮丧地,我说出我的名字的美国化版本:“Claw-dee-ah。” 最终,Siri 识别出来了。

对于那些母语不是英语或名字听起来不符合传统美国发音的人来说,不得不调整我们的说话方式来与语音识别技术互动是一种熟悉的体验。 我甚至因此停止使用 Siri。

过去几十年语音识别技术的应用揭示了其中根深蒂固的一个非常成问题的问题:种族偏见。 最近发表在《PNAS》上的一项研究表明,语音识别程序对黑人说话者存在偏见。 平均而言,来自苹果和微软等领先科技公司的所有五个程序都显示出显着的种族差异; 与白人说话者相比,他们错误转录黑人说话者的音频的可能性是白人说话者的两倍。


支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您将帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


在与他人的正常对话中,我们可能会选择语码转换,根据听众的不同,在语言、口音或说话方式之间切换。 但是,对于自动语音识别程序,不存在语码转换——要么你同化,要么你就不被理解。 这有效地审查了那些不属于用于创建这些技术的“标准”语言或口音的声音。

“除非我调整我的语言模式,否则我无法与这些设备协商,”托森大学技术传播和信息设计助理教授 Halcyon Lawrence 说,她没有参与这项研究。“这很成问题。” 具体来说,问题不仅仅是改变你的说话方式:它意味着必须适应你的身份并同化。

对于拥有特立尼达和多巴哥口音的劳伦斯以及其他人来说,我们身份的一部分来自于说特定的语言、拥有口音或使用一套语音形式,例如非裔美国人白话英语 (AAVE)。 对于我这个波多黎各人来说,用西班牙语说出我的名字,而不是试图翻译声音使其能够被北美听众理解,意味着忠于我的根。 劳伦斯补充说,不得不改变身份如此重要的组成部分才能被认可,这本身就很残酷:“就像人们不会期望我会脱掉我的肤色一样。”

语音识别程序无法理解也会影响其他边缘化社区。 该研究的计算研究生和第一作者艾莉森·科内克 (Allison Koenecke) 指出,一个特别脆弱的群体是:依赖语音识别和语音转文本工具的残疾人。 “这只适用于能够被[自动语音识别]系统理解的一部分人群,”她说。 对于依赖这些技术的残疾人来说,被误解可能会产生严重的后果。

造成这些差异的原因可能有很多,但科内克指出了最可能的原因:训练数据。 总体而言,用于训练语音识别技术的“标准”数据主要是白人的。 通过在使用的词语和说话方式上都使用狭窄的语料库,系统排除了具有独特语言特征(例如 AAVE)的口音和其他说话方式。 事实上,研究发现,随着 AAVE 使用的增加,误解的可能性也随之增加。 具体而言,研究中发现的差异主要是由于单词的说话方式造成的,因为即使说话者说出相同的短语,黑人说话者被误解的可能性仍然是白人说话者的两倍。

此外,口音和语言偏见也存在于创造这些技术的人类身上。 例如,研究表明,口音的存在会影响 陪审员是否认为人们有罪 以及 患者是否认为他们的医生称职。 认识到这些偏见将是避免在技术中实施这些偏见的重要途径。

Safiya Noble 加州大学洛杉矶分校信息研究副教授承认,语言很难融入技术中。 “语言是情境化的,”没有参与这项研究的 Noble 说。 “当某些人说某些词时,这些词意味着某些东西,而这些[语音]识别系统实际上并没有考虑到很多这一点。” 但这并不意味着公司不应该努力减少其技术中的偏见和差距。 然而,为了做到这一点,他们需要了解人类语言的复杂性。 因此,解决方案不仅可以来自技术领域,还可以来自人文学科、语言学和社会科学领域。

劳伦斯认为,开发人员必须意识到他们创造的技术的影响,人们必须质疑这些技术的用途以及它们为谁服务。 做到这一点的唯一方法是让人文学科和社会科学家参与进来,与技术专家对话,提出重要的问题,即这些识别技术是否可能像面部识别技术的某些有害发展一样,被用作对抗边缘化社区的武器。

科内克说,从技术方面来看,向程序输入更多样化的训练数据可以缩小这一差距。 “我认为至少增加训练数据集中非标准英语音频样本的份额将使我们朝着缩小种族差距的方向迈进,”她补充道。 Noble 说,他们还应该更广泛地测试他们的产品,并拥有更多样化的劳动力,以便来自不同背景和观点的人可以直接影响语音技术的设计。

但双方都认为,科技公司必须承担责任,并应力求改变。 科内克建议,自动语音识别公司应将他们的研究用作初步基准,并随着时间的推移继续使用它来评估他们的系统。

通过这些策略,科技公司和开发人员或许能够使语音识别技术更具包容性。 但是,如果他们继续脱离人类语言和社会的复杂性,而不认识到自己的偏见,那么差距将继续存在。 与此同时,我们中的许多人在与 Alexa、Cortana 或 Siri 互动时,将继续在身份认同和被理解之间挣扎。 但劳伦斯每次都选择身份认同:“我不切换,我不会那样做。”

© . All rights reserved.