
以下文章经The Conversation许可转载,这是一个报道最新研究的在线出版物。
我们人类被文本淹没。这不仅仅是新闻和其他及时信息:普通人也淹没在法律文件中。问题是如此严重,以至于我们大多忽略它。每次一个人使用商店的会员奖励卡或连接到在线服务时,他或她的活动都受到相当于数百页的法律条款的约束。大多数人都不注意这些大量的文件,这些文件通常被标记为“服务条款”、“用户协议”或“隐私政策”。
支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您可以帮助确保未来产生有关当今塑造我们世界的发现和想法的影响深远的故事。
这些只是信息过载这一更广泛的社会问题的一部分。存储的数据如此之多——艾字节之多,其存储量相当于人类历史上所说过的所有话——以至于人类不可能阅读和解释所有内容。通常,我们通过选择要关注的特定主题或问题来缩小信息范围。但重要的是要真正了解管理我们数据存储方式以及谁可以查看数据的法律文件的含义和内容。
作为计算机科学研究人员,我们正在研究人工智能算法如何消化这些大量文本并提取其含义,并以普通人可以理解的方式呈现出来。
计算机可以理解文本吗?
计算机将数据存储为 0 和 1 – 人类无法直接理解的数据。它们将这些数据解释为显示对人们有意义的文本、声音、图像或视频的指令。但是计算机真的可以理解语言吗,不仅可以呈现单词,还可以呈现它们的含义?
一种找出答案的方法是让计算机以人们可以理解并认为有用的方式总结他们的知识。如果人工智能系统可以足够快地处理文本,以帮助人们在需要时做出决策,那就最好了——例如,当您注册新的在线服务并被要求同意该网站的隐私政策时。
如果一个计算机化的助手可以在几秒钟内消化所有这些法律术语并突出关键点会怎么样?也许用户甚至可以告诉自动化助手特别注意某些问题,例如何时共享电子邮件地址,或者搜索引擎是否可以索引个人帖子。公司也可以使用此功能来分析合同或其他冗长的文件。
要完成这类工作,我们需要结合一系列人工智能技术,包括机器学习算法,这些算法可以接收大量数据并独立识别它们之间的联系;知识表示技术,用于表达和解释关于世界的事实和规则;语音识别系统,用于将口语转换为文本;以及人类语言理解程序,这些程序处理文本及其上下文以确定用户正在告诉系统做什么。
检查隐私政策
如今,现代互联网生活或多或少需要将私人信息(如物理地址和电子邮件地址、信用卡号码和银行账户详细信息)和个人数据(照片和视频、电子邮件和位置信息)委托给营利性公司。
这些公司的基于云的系统通常会保留用户数据的多个副本,作为防止服务中断的备份计划的一部分。这意味着有更多潜在的目标——每个数据中心都必须在物理上和电子上得到安全保护。当然,互联网公司认识到客户的担忧并聘请安全团队来保护用户的数据。但是,他们承诺这样做的具体而详细的法律义务可以在他们晦涩难懂的隐私政策中找到。没有一个普通人——甚至可能没有一个律师——可以真正理解它们。
在我们的研究中,我们要求计算机总结普通用户在点击在线服务的“接受”或“同意”按钮时表示同意的条款和条件。我们下载了各种互联网公司的公开隐私政策,包括Amazon AWS、Facebook、Google、HP、Oracle、PayPal、Salesforce、Snapchat、Twitter和WhatsApp。
总结含义
我们的软件检查文本并使用信息提取技术来识别关键信息,这些信息指定了文档中确定的法律权利、义务和禁止事项。它还使用语言分析来识别每条规则是否适用于服务提供商、用户或第三方实体,例如广告商和营销公司。然后,它以清晰、直接、人类可读的语句呈现该信息。
例如,我们的系统将亚马逊隐私政策的一个方面确定为告知用户,“您可以选择不提供某些信息,但您可能无法利用我们的许多功能。”该政策的另一方面被描述为“我们还可能收集技术信息,以帮助我们识别您的设备,以进行欺诈预防和诊断。”

来源:The Conversation (CC-BY-ND);来源:UMBC 获取数据
我们还在总结系统的帮助下发现,隐私政策通常包含针对第三方(不是服务提供商或用户)的规则,人们甚至可能不知道这些第三方参与了数据存储和检索。
隐私政策中规则数量最多的——43%——适用于提供服务的公司。不到四分之一的规则——24%——为用户和客户创建义务。其余规则管理第三方服务或公司合作伙伴的行为,或者无法被我们的系统分类。

来源:The Conversation (CC-BY-ND);来源:UMBC 获取数据
下次您单击“我同意”按钮时,请注意,您可能同意与将分析您的数据的其他隐藏公司共享您的数据。
我们正在继续提高我们以简洁准确的方式总结复杂隐私政策文档的能力,使人们可以理解并使用它们来评估使用服务相关的风险。
本文最初发表在The Conversation上。阅读原文。