语音分析在法庭上应谨慎使用

尽管语音识别经常作为法律案件的证据呈现,但其科学基础可能不可靠

吉安卢卡·巴蒂斯塔

语音识别已开始在情报调查中占据重要地位。例子不胜枚举:当 ISIS 发布记者詹姆斯·福利被斩首的视频时,来自世界各地的专家试图通过分析“圣战约翰”的声音来识别这位蒙面恐怖分子。爱德华·斯诺登披露的文件显示,美国国家安全局已经分析并提取了数百万通电话的内容。银行呼叫中心正在使用语音生物识别技术来验证用户身份并识别潜在的欺诈行为。

但是语音识别背后的科学可靠吗?科学文献中的几篇文章已经警告了其主要应用之一的质量:法庭上的法庭语音学专业知识。我们汇编了来自世界各地的二十多起司法案件,其中法庭语音学存在争议。国际刑警组织最近公布的数据表明,一半的法庭专家仍然使用已被公开质疑的音频技术。

多年来,电影和电视剧,如《犯罪现场调查》,描绘了“声音科学”的不现实画面。在 1994 年的电影《燃眉追击》中,一位专家听了一段简短的录音,并宣称说话者是“古巴人,年龄在 35 岁到 45 岁之间,在美国东部受过教育”。然后,这段录音被输入一台超级计算机,该计算机将声音与一名嫌疑人的声音进行匹配,并得出正确识别的概率“为 90.1%”的结论。这一序列总结了许多关于法庭语音学的误解,这些误解导致了现实生活中的司法错误。事实上,电影中的那个场景例证了所谓的“犯罪现场调查效应”——“法官对法庭科学的能力抱有不切实际期望的现象”,西班牙马德里高级科学研究委员会(Consejo Superior de Investigaciones Cientificas)的法庭语音科学家胡安娜·吉尔·费尔南德斯说。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


一名语音分析师在西班牙的语音取证实验室工作。图片来源:吉安卢卡·巴蒂斯塔

1997 年,法国声学学会公开请求停止在法庭上使用法庭语音科学。该请求是对杰罗姆·普列托案件的回应,此人因一起有争议的警方调查而被错误地认定为在声称对汽车爆炸事件负责的电话中使用了普列托的声音,从而在监狱中度过了 10 个月。有大量令人不安的可疑取证和彻头彻尾的司法错误的例子,这些例子已由“听见声音”记录在案,这是一个由本文作者在 2015 年和 2016 年开展的关于法庭科学的科学新闻项目。

不可能知道每年进行多少次语音调查,因为没有国家保留登记册,但意大利和英国专家估计,在各自的国家,每年必须有数百次。该过程通常至少涉及以下任务之一:转录录音,将截获的声音与嫌疑人的声音进行比较,将嫌疑人的声音放入不同声音的队列中,根据方言或口语对说话者进行侧写,解释噪音或验证录音的真实性。

接受分析的录音片段可以是电话对话、语音邮件、赎金要求、恶作剧电话和拨打紧急或警察号码的电话。语音分析师必须面对的主要障碍之一是录音片段的质量差。“电话信号没有携带足够的信息来区分语音的细微差别。您需要两倍宽的频带才能区分某些辅音,例如 fs 或 m 和 n,”乌戈·博多尼基金会的科学家、意大利最杰出的法庭语音学家安德烈亚·保罗尼在 2015 年 11 月去世前说。更糟糕的是,录音信息通常嘈杂、简短,甚至可能已有数年甚至数十年的历史。在某些情况下,模拟电话呼叫的背景可能特别具有挑战性。想象一下,使用旧手机或不知名的外国品牌手机在拥挤的电影院里重现通话。

在 1994 年发表于 ESCA 自动说话人识别、身份验证和验证研讨会论文集的一篇文章中,专家赫尔曼·昆泽尔估计,德国联邦警察分析的片段中,只有 20% 包含 20 秒的可用语音。然而,许多法庭专家愿意处理质量极低的音频摘录。在著名的乔治·齐默尔曼案件中,这位社区守望协调员于 2012 年在佛罗里达州桑福德枪杀了年轻的非裔美国人特雷沃恩·马丁,一位专家表示,他可以提取语音轮廓,甚至可以解释在紧急呼叫背景中听到的尖叫声。

不幸的是,这些错误并非孤立的例外。国际刑警组织是代表 190 个国家警察部队的国际组织,其于 2016 年 6 月在《国际法庭科学》杂志上发表的一项调查显示,一半的受访者(44 人中有 21 人)——来自世界各地的警察部队——使用了早已知道科学依据不可靠的技术。一个例子是最简单和最古老的语音识别方法:未经辅助的听力,导致具有“训练有素的耳朵”的人的主观判断,甚至受害者和证人的意见。

1992 年,加拿大人盖伊·保罗·莫林因强奸和谋杀一名九岁女孩而被判处终身监禁。除了其他证据外,受害者的母亲说她认出了莫林的声音。三年后,DNA 测试证明莫林不是凶手。这种错误并不令人惊讶。在 2000 年发表在“法庭语言学”上的一项研究中,一群彼此认识的志愿者听取了该组不同成员声音的匿名录音。识别率远非完美,一位志愿者甚至未能认出自己的声音。

然而,这并不意味着自动化方法总是比人耳更准确。实际上,法庭语音学中使用的第一种仪器技术多年来一直被否认具有任何科学依据,尽管根据国际刑警组织的报告,其某些变体仍在使用中。我们指的是声纹或频谱图匹配,其中人类观察员将嫌疑人发音的单词的频谱图与截获的说话者发音的相同单词的频谱图进行比较。频谱图是语音频谱频率的图形表示,当发出单词或声音时,它们会随时间变化。

声纹因贝尔实验室科学家劳伦斯·G·克尔斯塔于 1962 年在《自然》杂志上发表的一篇论文而声名鹊起。但在 1979 年,国家科学基金会的一份报告宣布声纹没有科学依据:作者写道,频谱图在区分说话者方面不太好,而且它们的可变性太大。“频谱图匹配是骗局,纯粹而简单。比较图像就像比较声音一样主观,”保罗尼说。然而,这项技术仍然保持着很高的可信度。2001 年,在美国的大卫·肖恩·波普在因严重性侵犯罪在监狱中度过 15 年后,在 DNA 检测后被无罪释放。定罪部分基于声纹分析。

对声音的不同解读

科学界已明确否定了一些语音分析技术,但在就最有效的语音识别方法达成共识方面仍相去甚远。胡安娜·吉尔·费尔南德斯说,存在两种思想流派。“语言学家支持使用半自动技术,将计算机分析和人工解释相结合,而工程师则更重视自动化系统。”

半自动技术仍然是最广泛使用的技术。这些方法被称为“声学语音”方法,因为它们将通过听觉(声学)获得的测量值与自动化声音分析(语音学)的输出相结合。依赖声学语音方法的专家通常首先收听录音并将其转录为语音转录。然后,他们识别语音信号的许多特征。高级特征是语言学特征:例如,说话者对词语的选择(词汇)、句子结构(句法)、填充词的使用,如“嗯”或“像”,以及口吃等言语困难。这些特征的总和就是个人语调——一个人特定的、个人的说话方式。其他高级品质是所谓的超音段特征:音质、语调、每秒音节数等等。

较低级别的特征或音段特征主要反映语音生理学,最好使用特定的软件进行测量。一个基本特征是基频。如果将语音信号分成几毫秒长的段,则每个段将包含一个几乎完美周期性波形的振动。这种振动的频率是基频,它对应于声带的振动频率,并有助于我们感知为特定声音的音色或音调。成年男性的平均基频约为 100 赫兹,成年女性的平均基频约为 200 赫兹。很难使用此特征来确定说话者。一方面,在同一上下文中说话的不同说话者之间,它的变化很小。另一方面,当同一个说话者生气或大声喊叫以在糟糕的电话线上传达声音时,基频会发生巨大变化。

常用的其他音段特征是元音共振峰。当我们发出元音时,声道(喉咙和口腔)的行为类似于具有特定共振的移动管道系统。这些共振的频率(称为共振峰)可以绘制在图中,该图表示每个说话者的特定“元音空间”,并且该图可以与其他说话者的图进行比较。

尽管声学语音方法很受欢迎,但它也引发了一些问题。由于它是半自动的,因此留有主观判断的余地,有时使用类似技术的专家在同一材料上工作可能会得出不一致的结论。此外,关于普通人群中语音特征(基频除外)的范围和分布的数据非常少。由于这些原因,最严谨的专家表示,我们永远无法仅凭声音来确定说话者的身份。充其量,我们只能说两种声音是兼容的。

自动化系统可能产生误报

在 20 世纪 90 年代,一种最大限度地减少人为判断的新系统开始流行:自动说话人识别 (ASR)。在 ASR 中,录音由软件处理,软件从信号中提取特征,对其进行分类,并将其与语音数据库中的特征进行匹配。大多数算法的工作原理是将信号分成短暂的时间窗口,并提取相应的频率频谱。然后,频谱经历数学变换,提取与声道几何形状相关的参数,称为倒谱系数。倒谱系数提供了说话者声道形状的模型。“我们所做的事情与语言学家所做的非常不同, ” Agnitio 副总裁安东尼奥·莫雷诺说,Agnitio 是一家西班牙公司,生产 Batvox,根据国际刑警组织的数据,Batvox 是使用最广泛的 ASR 系统。“我们的系统更精确、可测量且可重现:两个不同的操作员将从系统中获得相同的结果。”

语言学家不同意。“ARS 的积极方面是它需要较少的人工输入……消极方面是倒谱系数反映了人类声道的几何形状,但我们彼此之间并没有太大的不同,因此系统倾向于产生误报,”约克大学的彼得·弗伦奇说,他是国际法庭语音学与声学协会 (IAFPA) 的主席,也是英国主要的法庭语音学公司 JP French Associates 的主管。“我认为自动化系统应与人工干预相结合,”弗伦奇说。

其他专家对他们的批评更为极端:“目前,ASR 没有足够的理论基础来证明其在现实生活案例中的使用是合理的,”奥地利科学院的声学科学家西尔维亚·穆斯穆勒说。怀疑的主要原因之一是,大多数 ASR 算法都是在美国国家标准与技术研究院 (NIST) 的语音数据库上进行训练和测试的。该数据库是国际标准,但它仅包含录音室录制的语音,这些语音未能接近现实生活的复杂性,说话者使用不同的语言、交流方式、技术渠道等等。

“事实上,该程序建模的不是声音,而是一个会话,由声音、通信通道和其他变量组成,”莫雷诺说。起初,语音验证分析师试图复制录制语音的背景。但大约 10 年前,他们改变了方法,转而采用算法来减少录音条件的影响,称为补偿技术。“在 NIST 数据库中,同一个说话者通过许多不同的通道进行录音,许多不同的说话者通过同一个通道进行录音”,莫雷诺解释道。“补偿技术在这个数据集上进行了测试,使我们能够将说话者的特征与会话的特征区分开来。”换句话说,使用这种方法训练的程序应该能够识别两个不同电话中的同一个说话者,例如一个通过固定电话拨打,另一个通过手机拨打。

莫雷诺认为,自动说话人识别“已经完全准备好产生有效的结果,并提高法庭评估的可靠性”。然而,他承认 ASR “是专家可用的众多技术之一,这些技术相互补充:更先进的实验室拥有跨学科团队。”

ASR 的主要问题可能不在于软件本身,而在于使用它的人。“这需要一位语音科学家。你不能只是把任何操作员放在电脑前……这些程序就像飞机:你可以在一天内买一架飞机,但你不能在三周内学会如何驾驶,”荷兰法庭研究所的迪迪埃·梅乌利说。然而,公司尽可能多地销售,他们最终将软件卖给不精通法庭语音匹配的客户,加拿大阿尔伯塔大学的语言学教授杰弗里·斯图尔特·莫里森说。Agnitio 提供为期三年的课程,但到目前为止,数百名 Batvox 用户中只有 20% 到 25% 完成了该课程。Batvox 工具的成本可能高达 10 万欧元。

需要现代统计分析

无论采用何种分析方法,法庭语音学都面临着更深层次的科学问题。总体而言,该学科尚未经历数据统计方法的范式转变,而更先进的技术,如法庭 DNA 检测,已经采用了这种转变:转向贝叶斯统计。

莫里森提出了这种方法的一个例子,他是法庭语音学中贝叶斯统计的旗手,也是国际刑警组织研究的合著者。“想象一下,我们在犯罪现场发现了一个 9 码的鞋印,而我们有一个穿 9 码鞋的嫌疑人。在另一个案例中,我们发现了一个 15 码的鞋印,而嫌疑人穿 15 码的鞋。在第二种情况下,对嫌疑人的证据更充分,因为 15 码比 9 码更不常见,”莫里森说。换句话说,仅仅测量两个鞋印(或两个声音,或两个 DNA 样本)之间的相似性是不够的。分析师还必须考虑到这些脚印(或声音,或 DNA)的典型程度。

对于声音,问题可以表述如下:如果嫌疑人和罪犯是同一个人,那么两种声音之间相似的可能性有多大?如果他们不是同一个人,那么相似的可能性有多大?这两个概率的比率称为似然比或证据强度。证据强度越高(例如,对于非常相似且非常非典型的声音),证据就越有力。

较高或较低的似然比可以增加或减少有罪的可能性,但概率也取决于其他线索和证据,包括法庭证据和非法庭证据。正如贝叶斯统计的典型特征,概率不是一劳永逸地计算出来的,而是随着新证据的发现而不断调整的。

在 2015 年 6 月发布的法庭科学指南中,欧洲法庭科学研究所网络建议使用贝叶斯框架,特别是似然比。然而,根据国际刑警组织的报告,在接受调查的 44 位专家中,只有 18 位进行了转换。

一个严重的障碍妨碍了贝叶斯统计的应用:很难估计声音的典型程度,因为没有关于语音特征分布的统计规范。“如果您有 200 万个指纹的数据库,您可以对估计的可靠性非常有信心,但语音数据库要小得多,”保罗尼说。例如,英国使用的 DyViS 数据库包含 100 位男性说话者,其中大多数人在剑桥接受过教育。莫雷诺确信,一些未公开的警察数据库包含数千个声音,而一些组织拥有包含数十万说话者的数据库。

“在大数据时代,最合理的做法是建立一个包含大量数据的语料库,模仿提供在线服务的平台,”保罗尼说。鉴于没有类似的东西,莫里森的秘诀是根据人口统计特征(性别、语言、方言等)和说话风格(疲倦、兴奋、困倦)等,收集每个案例相关人群中说话者的录音。然而,问题在于,“许多实验室表示他们没有任何类型的数据库,”马德里自治大学的科学家丹尼尔·拉莫斯说,他也与西班牙警察部队国民警卫队合作。

我们对法庭语音学最新技术的调查显示了语音识别科学的一些局限性,并表明应极其谨慎地考虑其应用结果。“在我看来,不应该有人因为声音而被判刑,”保罗尼总结道。“In dubio pro reo——当有疑问时,应有利于被告。对于声音,出错的可能性太高,法官永远无法声明某人有罪,且‘排除合理怀疑’。”

本文最初发表于《Le Scienze》,经许可翻译和改编。它的开发得到了 Journalismfund.eu. 的支持。

进一步阅读

国际刑警组织关于执法机构使用说话人识别的调查。 Morrison G. S., Sahito F. H., Jardine G., Djokic D., Clavet S., Berghs S.,Goemans Dorny C., in 国际法庭科学, Vol. 263, pp. 92-100, Junev2016. http://dx.doi.org/10.1016/j.forsciint.2016.03.044.

法庭说话人识别。 Meuwly D., in Wiley 法庭科学百科全书, 2009.

解释证据:评估法庭上的法庭科学。 Robertson B., Vignaux G.A., John Wiley and Sons, 1995.

听见声音网站,包含案例、技术和立法:http://formicablu.github.io/hearingvoices/en.

© . All rights reserved.