本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点
在很多方面,“大数据”和“加密”是相互对立的。前者涉及收集、存储和分析信息,以揭示研究人员、执法部门和行业可以利用的模式。后者的目标是使数据对窥探者不可见。这种紧张关系是本周由白宫科技政策办公室和麻省理工学院(M.I.T.)联合主办的会议的核心,来自学术界、政界和行业的十多位专家探讨了加密和其他以隐私为导向的技术如何保护大数据工作中涉及的信息。
麻省理工学院计算机科学与人工智能实验室(CSAIL)教授沙菲·戈德瓦瑟在小组讨论中表示,功能加密是未来的方向。她补充说,诸如匿名化数据记录之类的替代方案行不通。由于人们在社交网络和其他公共网站上可以自由获取大量关于人们的数据,任何想要作恶的人都可以通过交叉引用来自任何在线资源的信息来建立关于其目标人物的档案。
麻省理工学院计算机科学与人工智能实验室(CSAIL)副教授尼古拉·泽尔多维奇在周一的“隐私增强技术”小组讨论中表示,如果只是存储数据,加密效果很好。问题在于当你实际上需要处理和分析这些数据时。这就是为什么需要能够对加密数据进行实际处理的系统,他补充道。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您正在帮助确保关于当今塑造我们世界的发现和想法的有影响力的故事的未来。
这种实际的努力通常指的是所谓的“同态”加密,它使得在不首先解密的情况下对加密数据进行计算成为可能。自 1970 年代后期以来,研究人员一直在说,完全同态加密——其中受保护的信息可以以任意多种方式进行切分和处理,而不会泄露实际数据——是可能的。这样的系统将对云计算有利,提供了一种以最小的隐私风险来分析信息的方式,同时提供信息给人们。
然而,在实践中,计算机科学家一直未能开发出一种方法来对加密数据执行少量的有意义的操作。IBM 声称,计算机科学家克雷格·根特里在 2009 年开发了一种实用的完全同态系统,但批评人士表示,该技术过于复杂、缓慢且不适合在云中实际使用。IBM 已经为根特里的工作申请了专利,并继续进行开发。
人们正在努力开发,如果不是完全同态系统,那么就可以以新的和新颖的方式处理加密数据的系统。
其中一个项目是CryptDB,该系统通过在请求数据的软件和存储该加密数据的数据库之间放置一个代理服务器来实现对加密数据的分析。代理使用旨在比较和分析加密信息的算法。在某些情况下,代理必须删除不同的加密层才能更好地分析数据,但其想法是它不会将数据完全加密为纯文本。尽管 CryptDB 可以执行的查询类型有限,但谷歌是该技术的重要支持者,并使用它在其基于云的BigQuery 服务中提供加密查询,用于搜索海量数据集。在搜索和检索过程中添加一个像代理服务器这样的额外设备通常会减慢速度,但泽尔多维奇及其同事表示,他们正在努力缓解这个问题(pdf)。
麻省理工学院的小组成员还提出了一些不依赖加密的安全措施。例如,差异隐私是匿名化数据的一种替代方案。哈佛大学维基·约瑟夫教授萨利尔·瓦丹说,这种方法使用了一个自动化的数据管理员,可以在保护数据集中个人的隐私的同时,向请求数据的人员提供有用的信息。正如《大众科学》网站上 2012 年 12 月的一篇文章中指出的那样,“差异隐私数据发布算法允许研究人员提出关于敏感信息数据库的几乎任何问题,并提供已经 ‘模糊’ 的答案,以便它们实际上不泄露任何个人的数据,甚至不泄露该人是否首先在数据库中。”
另一个选择是让工程师将隐私政策要求直接编码到收集、存储和分析数据的软件中。麻省理工学院计算机科学与人工智能实验室(CSAIL)首席研究科学家丹尼尔·魏茨纳说,这样的“负责任的系统”将被编写为自动分析数据的特定使用是否违反了法律。“使用一个类比,我们可以在世界各地以相当高的公众信任度来运营经济,”他补充道。“我们这样做是因为我们有一套以一致方式应用的一致规则。我认为我们应该对信息的使用方式设定类似的目标。”
周一的会议源于巴拉克·奥巴马总统今年早些时候呼吁全面审查大数据对美国人的生活、生计以及与政府关系的影响。奥巴马指示白宫顾问约翰·波德斯塔领导审查过程,该过程将在几个月后结束,并发布一份预计会影响与大数据相关的政策、资金和研究的报告。