当我们请我们来自西非几内亚农村的新朋友艾莎图将我们的电话号码添加到她的手机中,以便我们保持联系时,她用苏苏语回答说:“M’mou noma。M’mou kharankhi。” “我不能,因为我没有上过学。” 由于缺乏正规教育,艾莎图不会读写法语。但我们认为,艾莎图缺乏教育不应该阻止她通过手机获取基本服务。正如我们所见,问题在于艾莎图的手机不理解她的当地语言。
计算机系统应该适应人们(所有人)使用语言的方式。西非人使用他们的语言已有数千年,创造了丰富的口头历史传统,通过生动地讲述祖先的故事和历史观点,并传递知识和道德,为社区服务。计算机可以轻松地支持这种口头传统。虽然计算机通常是为使用书面语言而设计的,但语音技术确实存在。然而,语音技术并不能“说”非洲使用的 2,000 种语言和方言中的任何一种。苹果的 Siri、谷歌助手和亚马逊的 Alexa 共同服务于零种非洲语言。
事实上,移动技术的好处,世界上大多数的7亿文盲人口无法获得,除了接听电话等简单的用例之外,他们无法访问诸如联系人管理或短信之类的简单功能。由于文盲往往与缺乏教育相关,因此无法说一种通用的世界语言,语音技术不适用于最需要它的人。对于他们来说,语音识别技术可以帮助弥合文盲和获取来自农业信息到医疗保健的有价值的信息和服务之间的差距。
关于支持科学新闻
如果您喜欢这篇文章,请考虑订阅我们的获奖新闻,以支持我们的工作 订阅。通过购买订阅,您将有助于确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。
为什么语音技术产品在非洲和其他地方语言中不可用?人口较少的语言通常是商业优先事项的牺牲品。此外,对技术商品和服务拥有权力的人往往使用相同的几种语言,这使得未能充分考虑那些具有不同背景的人变得容易。西非广泛使用的语言的使用者
在历史上开发语音识别技术的研究实验室、公司和大学中,代表性严重不足。众所周知,数字技术可能会对不同种族的人产生不同的后果。技术系统可能无法为不同的用户提供相同质量的服务,将某些群体视为不存在。
商业优先、权力和代表性不足都加剧了另一个关键挑战:缺乏数据。语音识别技术的发展需要大型的带注释的数据集。最能从语音识别技术中受益的文盲人口使用的语言往往属于“低资源”类别,与“高资源”语言相比,可用的数据集很少。当前解决数据匮乏的最新方法是“迁移学习”,它将从高资源语言中学到的知识迁移到低资源语言的机器学习任务中。然而,实际迁移的内容理解不充分,需要对用于迁移学习的数据集的相关性、大小和质量之间的权衡进行更严格的调查。就目前的技术而言,未来十年内上网的数亿用户将无法使用他们的设备所服务的语言。
如果这些用户设法访问在线服务,他们将缺乏常见世界语言使用者所享有的自动内容审核和其他保障措施带来的好处。即使在美国,用户也体验到关注和语境化,也很难保证人们的在线安全。 在缅甸及其他地区,我们已经看到,不受审核的内容的迅速传播如何加剧社会分裂并放大极端声音,从而煽动暴力。在线虐待在全球南方以不同的方式表现出来;而且,大多数 WEIRD(西方、受过教育、工业化、富裕和民主)的设计师不理解当地的语言和文化,因此无法预测或防止他们自身文化背景之外的暴力和歧视。
我们正在努力解决这个问题。我们为 Maninka、Pular 和 Susu 开发了首个语音识别模型,这三种语言在七个国家/地区被 1000 万人使用,其中文盲率高达 68%。我们没有利用来自无关的高资源语言的数据集,而是利用了大量可用的语音数据,即使在低资源语言中也是如此:广播存档。我们为研究社区收集了两个数据集。第一个是西非无线电语料库,包含超过 10 种语言的 142 小时音频,并带有标记的验证子集。
第二个是西非虚拟助手语音识别语料库,包含四种语言的 10,000 个标记音频剪辑。我们创建了西非 wav2vec,这是一种在嘈杂的无线电语料库上训练的语音编码器,并将其与在六倍更多高质量数据上训练的基线 Facebook 语音编码器进行了比较。我们表明,尽管西非无线电语料库的规模小且嘈杂,但我们的语音编码器在多语言语音识别任务上的表现与基线相似,并且在西非语言识别任务上的表现明显优于基线。最后,我们为 Maninka、Pular 和 Susu 的文盲使用者构建了一个多语言智能虚拟助手原型(请参见下面的视频)。我们正在向研究社区发布我们所有的数据集、代码和经过训练的模型,希望它能促进这些领域的进一步努力。
早期的计算机名人知道,为了让大众能够使用编程,他们需要创建易于人类学习的编程语言。即便如此,第一批高级编程语言还是高度技术化的。今天的用户受益于多个抽象级别:您不需要了解 JavaScript 就可以在您的计算机上阅读这篇文章,人工智能研究人员也不需要与汇编代码交互来推进计算机科学领域的发展。
尽管如此,计算机的进化程度还不足以在某些社会中发挥作用。艾莎图不应该阅读和书写一种通用语言才能为科学研究做出贡献,更不用说仅仅与她的智能手机互动了。
是的,创建能够理解数千种语言的口头交流的细微之处的计算机具有挑战性,这些语言富含语调和其他高级语义等口语特征。但是,只要研究人员将注意力转向哪里,就可以取得进展。创新、访问和安全要求技术能够说世界上所有的语言。