
以下文章经许可转载自The Conversation,这是一个报道最新研究的在线出版物。
与在智能手机键盘上输入指令相比,对着智能手机说话要容易得多。当人们尝试登录设备或系统时尤其如此:如果可以使用语音验证身份,只需说几个字即可通过语音验证,很少有人会选择输入冗长、复杂的安全密码。但是,声音可以被录制、模拟甚至模仿,这使得语音验证容易受到攻击。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的具有影响力的故事。
最常见的语音验证安全方法仅包括确保对口语密码的分析不被篡改;它们安全地存储密码和加密数据库中授权用户的声纹。但是,语音验证系统的安全必须从声音本身开始。
语音验证最容易遭受的攻击是冒充:找到一个听起来足够像真人的人,让他们回应登录提示。幸运的是,有一些自动说话人验证系统可以检测人类模仿。然而,这些系统无法检测到更高级的基于机器的攻击,在这种攻击中,攻击者使用计算机和扬声器来模拟或播放某人声音的录音。
如果有人录制了您的声音,他可以使用该录音创建一个计算机模型,该模型可以用您的声音生成任何单词。从冒充您与您的朋友交往到侵吞您的银行账户,其后果令人恐惧。我和我的同事们正在进行的研究利用音频扬声器的基本属性以及智能手机自身的传感器来击败这些计算机辅助攻击。
扬声器的工作原理
传统扬声器包含磁铁,磁铁根据电信号或数字信号的波动来回振动,从而将其转换为空气中的声波。例如,将扬声器贴近智能手机的麦克风意味着将磁铁非常靠近智能手机。大多数智能手机都包含磁力计,这是一种可以检测磁场的电子芯片。(例如,当使用指南针或导航应用程序时,它会派上用场。)
如果在语音验证过程中智能手机检测到附近的磁铁,这可能表明说话者不是真人。
确保是真人在说话
这只是我们系统的一部分。如果有人使用较小的扬声器,例如耳机,磁力计可能无法检测到其较小的磁铁。因此,我们使用机器学习和高等数学来检查声音到达麦克风时的物理特性。
我们的系统要求用户将智能手机放在脸前,并在说话时以半圆的方式左右移动手机。我们将麦克风捕获的声音与智能手机内部陀螺仪和加速度计的运动数据相结合——应用程序使用相同的传感器来了解您何时在走路或跑步,或改变方向。
使用这些数据,我们可以计算出声音产生的位置距离麦克风有多远——这使我们能够识别出有人可能在远处使用扬声器,因此其磁铁不会被检测到的可能性。我们可以将手机的运动与声音的变化进行比较,以发现声音是否是由手机附近大约人类嘴巴大小的声音源产生的。
当然,所有这些都可能被熟练的模仿者——真正模仿用户声音的人——击败。但请记住,现有的说话人验证方法可以捕捉到模仿者,使用机器学习技术来识别说话人是否正在修改或伪装其正常声音。我们的系统也包含这种能力。
检测有效吗?
当我们对我们的系统进行测试时,我们发现当声源距离麦克风 6 厘米(2 英寸)时,我们始终可以区分人和计算机控制的扬声器。在该距离下,普通扬声器中的磁铁足够强大,可以明显干扰手机的磁力计。如果攻击者使用的是耳机扬声器,则麦克风离声源足够近,可以检测到它。
当声源距离麦克风较远时,很难检测到来自扬声器的磁干扰。当距离较远时,也更难以分析声源相对于手机的运动。但是,通过使用多重防御,我们可以击败绝大多数基于扬声器和人类的攻击,并显着提高基于语音的移动应用程序的安全性。
目前,我们的系统是一个独立的应用程序,但在未来,我们将能够将其集成到其他语音验证系统中。
本文最初发表于The Conversation。阅读原始文章。