如何修复国家安全局

在大政府过度扩张的时代，正确使用数据的三步计划

在成立的最初几十年里，国家安全局（NSA）是一个默默无闻的部门，其主要工作只有一个：监视苏联。它的敌人明确且单一。它的主要工具是电话窃听、间谍飞机和隐藏的麦克风。

9月11日袭击事件发生后，这一切都改变了。国家安全局的主要敌人变成了一个分散的个人恐怖分子网络。世界上任何人都有可能成为合法的间谍目标。间谍活动的性质也随着新的数字通信渠道的激增而改变。与互联网连接的移动设备的指数级增长才刚刚开始。国家安全局的旧工具显然不再足够。

作为回应，该机构采取了一项新策略：收集一切信息。正如前国家安全局局长基思·亚历山大曾经说过的，当你在大海捞针时，你需要整个干草堆。国家安全局开始收集几乎每个美国人的批量电话记录；很快，它就开始收集几乎所有美国境外人员的批量互联网流量数据。不久之后，国家安全局每两小时收集的数据量就相当于美国人口普查的数据量。

支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保未来能够继续讲述关于塑造我们今天世界的发现和想法的具有影响力的故事。

国家安全局存储这个巨大的新干草堆的自然场所，是它一直以来存储情报资产的地方：在机构自身的安全设施中。然而，这种数据的集中带来了后果。几乎全世界所有人的私人、个人信息突然之间只需国家安全局的任何分析师轻敲键盘即可获得。数据囤积也使国家安全局比以往任何时候都更容易泄密。当时的国家安全局承包商爱德华·斯诺登对国家安全局秘密数据收集活动的范围感到震惊，他设法从夏威夷的一台服务器上下载了数千份秘密文件，然后飞往香港，并将这些文件交给了媒体。

关于人类行为的数据，例如人口普查信息，一直以来对于政府和行业的运作都至关重要。但是，一个秘密机构收集整个人口的数据，将这些数据存储在秘密的服务器群中，并在几乎没有或根本没有监督的情况下对其进行操作，这与以往的任何情况都存在质的区别。难怪斯诺登的披露引发了如此激烈的公众辩论。

到目前为止，关于国家安全局数据收集活动的评论大多集中在道德和政治层面。对国家安全局惨败的结构和技术方面关注较少。不仅政府在收集和使用大数据方面的政策不足，而且制定和评估这些政策的过程也需要加快速度。政府的做法必须像技术发展一样迅速地适应。没有简单的答案，但一些基本原则将使我们步入正轨。

第一步：分散干草堆
亚历山大关于在大海捞针的说法是错误的。你不需要整个干草堆——只需要检查其中任何一部分的能力。将大量数据存储在一个地方不仅是不必要的，而且对间谍和被间谍者来说都是危险的。对于政府而言，这使得毁灭性的泄密事件更有可能发生。对于个人而言，这为前所未有的侵犯隐私创造了可能性。

斯诺登的披露清楚地表明，在政府手中，信息变得过于集中。国家安全局和其他政府组织应将大数据资源留在原地，由创建数据库的组织监督，并采用不同的加密方案。不同类型的数据应分开存储：财务数据在一个物理数据库中，健康记录在另一个数据库中，等等。关于个人的信息应与其他类型的信息分开存储和监督。国家安全局或任何其他有充分合法理由这样做的实体，仍然能够检查这个分散的干草堆的任何部分。它只是不会将整个干草堆放在一个服务器群中。

实现这种分散的最简单方法是停止囤积。让电信和互联网公司保留他们的记录。不必急于销毁国家安全局当前的数据库，因为这些记录的内容和与之相关的软件都将很快成为过时的历史。

可能很难想象国家安全局放弃其数据收集活动——实际上，没有立法或行政命令，这种情况不会发生——但这样做将符合该机构自身的利益。国家安全局似乎也知道这一点。在去年夏天科罗拉多州阿斯彭安全论坛上发表演讲时，时任国防部副部长的阿什顿·卡特诊断出了国家安全局麻烦的根源。“[斯诺登泄密事件的]失败源于我们需要扭转的两种做法……。在一个地方集中了大量的信息。这是一个错误。” 其次，“你有一个人被赋予了非常大的权限来访问和移动这些信息。这也不应该是这样。” 分布式、加密的数据库在不同的计算机系统上运行，不仅会使斯诺登式的泄密更加困难，而且还可以防止来自外部的网络攻击。任何一次攻击都可能只导致访问整个数据库的有限部分。即使是专制政府也应该对数据分发感兴趣：集中的数据可能使内部人员更容易发动政变。

分发数据如何帮助保护个人隐私？答案是，它使跟踪数据库和人类操作员之间的通信模式成为可能。每种类型的数据分析操作，无论是搜索特定项目还是计算某些统计数据，都有其自身的特征通信模式——其自身在数据库之间链接和传输的签名网络。这些签名，关于元数据的元数据，可以用来监视其他私人通信的整体模式。

考虑一个类比：当公司不同部门之间的通信模式可见时（例如通过实体邮件），那么即使操作的内容（邮件的内容）仍然隐藏，正常操作的模式对于员工也是可见的。例如，如果负责维护员工健康记录的人看到财务记录部门突然访问了大量这些私人记录，他或她可以询问原因。同样，构建大数据操作使其生成关于元数据的元数据，使监督成为可能。电信公司可以跟踪发生在他们身上的事情。独立的公民实体以及媒体可以使用这些数据来充当国家安全局的监督机构。有了关于元数据的元数据，我们可以像国家安全局对每个人所做的那样对待国家安全局。

第二步：加强我们的传输线路
消除国家安全局的大规模数据存储只是保证数据丰富世界中隐私的一步。通过加密保护我们信息的传输和存储可能同样重要。如果没有这种保护措施，数据可能会在无人知晓的情况下被窃取。在网络犯罪日益增多和网络战威胁日益加剧的世界中，这种形式的保护尤为迫切。

每个使用个人数据的实体，无论是政府、私人实体还是个人，都应遵守一些基本的安全规则。外部数据共享应仅在具有相似安全标准的数据系统之间进行。每个数据操作都应需要可靠的身份凭证链，以便我们知道数据来自何处以及去向何处。所有实体都应接受元数据监控和调查审计，类似于今天信用卡欺诈的监控方式。

一个好的模型是所谓的信任网络。信任网络结合了一个计算机网络，该网络跟踪法律框架内每个数据片段的用户权限，该法律框架规定了可以对数据做什么和不能做什么——以及违反权限的后果。通过维护来源和权限的防篡改历史记录，可以自动审核信任网络，以确保数据使用协议得到遵守。

长期存在的信任网络版本已被证明既安全又稳健。最著名的是环球银行金融电信协会 (SWIFT) 网络，约有 10,000 家银行和其他组织使用该网络进行资金转移。SWIFT 最突出的特点是它从未被黑客入侵过（据我们所知）。当被问及为什么抢劫银行时，主谋威利·萨顿据称说：“因为钱在那里。” 今天，SWIFT 就是钱所在的地方。每天有数万亿美元通过该网络流动。由于其内置的元数据监控、自动化审计系统和共同责任，这个信任网络不仅阻止了抢劫犯，还确保了资金可靠地流向目的地。

过去，信任网络的运行复杂且成本高昂，但计算能力成本的降低使其进入了较小组织甚至个人的能力范围。我在麻省理工学院的研究小组与数据驱动设计研究所合作，帮助构建了 openPDS（开放个人数据存储），这是此类系统的消费者版本。我们现在正在与各种行业和政府合作伙伴测试该软件背后的想法，即普及 SWIFT 级别的数据安全性，以便企业、地方政府和个人可以安全地共享敏感数据——包括健康和财务记录。美国的一些州政府已开始评估这种架构，用于内部和外部数据分析服务。随着信任网络的使用变得更加广泛，个人和组织之间传输数据将变得更加安全，从而更容易实施安全、分布式的数据存储架构，以保护个人和组织免受大数据的滥用。

第三步：永不停息的实验
最后，也许也是最重要的一步是，我们必须承认我们没有所有的答案，而且确实没有最终的答案。我们唯一可以肯定的是，随着技术的变化，我们的监管结构也必须随之改变。这个数字时代是全新的；我们不能仅仅依靠现有的政策或传统。相反，我们必须不断在现实世界中尝试新的想法，看看哪些有效，哪些无效。

来自其他国家、公民和科技公司的压力已经导致白宫提议对国家安全局的监控进行一些限制。科技公司正在起诉要求发布来自国家安全局的请求信息——关于元数据的元数据——以努力恢复信任。5 月，众议院通过了《美国自由法案》；尽管许多隐私倡导者认为该法案力度不足，但该法案将开始限制批量数据收集，并为该过程引入一些透明度。（截至发稿时，该法案正在参议院待审。）

这些都是朝着正确方向迈出的步伐。然而，我们现在所做的任何改变都只是针对长期问题的短期解决方案。技术在不断发展，政府流程的创新速度必须跟上。最终，我们可以做出的最重要的改变是不断进行实验，并进行小规模的测试和项目部署，以找出哪些有效，保留有效的，并抛弃无效的。