无论是用于击败世界扑克冠军,还是以(基本)令人信服的人声预约理发,人工智能及其底层机器学习算法在功能上不断取得重大进展,并深入我们生活中越来越私密的空间。而且,与任何基于海量数据集的收集和分析的技术壮举一样,其中一些突破也伴随着重大的隐私风险。然而,新的数据收集技术可能会使研究人员更好地保护用户的隐私,同时仍然从他们的个人信息中收集有价值的见解。
以数字助理为例,人工智能创新的成果日益显现。如今,亚马逊的 Alexa 和谷歌助手可以区分您家中不同人的声音,并可以使用这些声音签名来提供个性化的交通报告,并在相关说话者的日历中安排约会。完成这些技巧需要复杂的自然语言处理技能。它还需要访问非常敏感的数据。位置历史记录、联系人、日历、语音查询的转录记录、在线浏览和购买历史记录——所有这些都可以用于训练人工智能,帮助虚拟助手变得更有用和个性化。
对于制造这些产品的公司,尤其是那些声称认真对待用户隐私的公司来说,这提出了一个棘手的问题。如何在不窥探用户活动和将用户个人数据置于风险之中的情况下,创建能够理解个人用户偏好的智能虚拟助手?艾伦人工智能研究所首席执行官奥伦·埃齐奥尼说:“第一道防线是对数据进行匿名化和加密。“匿名化是为了使其不以明显的方式直接与您联系起来,加密是为了使外部方无法访问该[信息]。”
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
除了提供全盘加密来编码特定设备上的所有信息以保护其免受窥探外,苹果和谷歌还依赖一种称为本地差分隐私的统计方法来保持他们从这些设备挖掘的数据匿名。卡内基梅隆大学电气与计算机工程教授阿努帕姆·达塔说:“其理念是,当从用户在笔记本电脑或智能手机上收集数据时,还会向数据中添加一些经过仔细校准的噪声。”“来自大量用户的这种经过掩盖的噪声数据然后被加密并发送到谷歌或苹果服务器,以进行解析以获得有意义的结果。”例如,公司可能会了解到在一天中的特定时间有多少智能手机使用特定应用程序——但公司不会知道这些智能手机或其所有者的身份。
苹果公司表示,它将这种隐私保护措施用于改进包括QuickType单词和表情符号建议(pdf)在其操作系统中的智能性和可用性等项目。同样,谷歌已使用本地差分隐私来远程收集来自其 Chrome 浏览器的数据,该浏览器在用户设备上运行(pdf)。该过程有助于公司找出对其浏览器的恶意软件威胁。尽管如此,达塔警告说,认为差分隐私与完全隐私同义是错误的。“这是一种相对保证,而不是绝对保证,”他说。
为了完全避免将敏感用户数据放在远程服务器上,谷歌正在试验一种名为联邦学习的方法。该公司不是收集和发送数据来训练其机器学习模型,而是将模型本身直接发送给用户。您将当前的训练模型下载到您的智能手机,该模型根据从您的个人数据中学到的内容进行更改,然后这个更新的模型返回到云端,并与所有其他更新的模型进行平均。谷歌在任何时候都看不到或收集您的个人数据。
尽管采取了这些措施,但一些安全研究人员仍然有所保留。他们指出,例如,如果黑客访问了机器学习模型,他们可以很容易地逆向工程用户数据。此外,南加州大学教授和前谷歌研究科学家亚历山德拉·科罗洛娃说,像差分隐私这样的策略实际上只对了解关于大型群体或人口的普遍趋势有用。她说,这些策略不会揭示个人层面的关键见解——而这大概是数字助理最需要做的事情。
加州大学伯克利分校教授兼安全研究员拉卢卡·阿达·波帕认为,最大的问题是所有这些技术实际上都相当于围绕数据构建软件墙。“攻击者总是最终会侵入软件,因此这些墙永远不会是万无一失的机制,”她说。
波帕和她在伯克利 RISELab 的一些同事认为,他们有一个更好的解决方案,可以从高度个人化的数据中收集见解。安全多方计算(pdf)据称将使科技公司能够从多个加密数据源收集他们想要的信息,而无需这些数据源泄露他们的私人数据。实际上,研究人员可以研究大型加密数据集中的信息,而无需查看这些集中的原始数据。无论是寻找更好的癌症治疗预测因子,还是提供个性化的广告和餐厅推荐,公司甚至不必看到——即使他们想看也看不到——底层的个人信息。“我真的认为这是未来,因为您不必再为了进行所有这些有用的 AI 和机器学习而放弃您的数据,”波帕说。
亚马逊、苹果、谷歌、微软和其他大型科技公司可能有不同的商业模式和数据收集动机,但都将自己的未来押注于提高其设备和服务的智能性。这意味着他们的数据收集工作可能只会增加——正如许多人在最近几个月发现的那样,这些公司已经拥有的个人信息量通常是惊人的。有一天,可能会有可能在不损害用户隐私的情况下,使用私人数据训练高度准确、高度个性化的人工智能。但就目前而言,只有一种方法可以确保您的敏感信息不会落入坏人之手:不要分享它。