如何保护您的基因组数据的隐私

一种名为“全同态加密”的技术非常安全,即使是未来的量子计算机也无法破解它

它可以挽救生命,找出某人患癌症的倾向,解决很久以前的犯罪或找到失散多年的亲戚:自从2000年代初人类基因组首次被测序以来,基因组测序已经取得了长足的进步。快进到今天,确定某人完整基因代码的过程正变得越来越常规。例如,成千上万的 COVID-19 幸存者现在正在绘制他们的基因组图谱,以帮助研究人员了解特定的基因构成如何影响一个人对冠状病毒的易感性。

但是,虽然窥探某人的 DNA 通常确实有助于预防、诊断和治疗许多疾病,但获得基因指纹也会暴露该个体基因组中编码的个人信息。这就是围绕精准医学未来存在的难题。突然之间,您正在与测序您基因组的人分享所有六十亿个碱基对的基因。无论目标是什么,基因组mapping和测序都会危及我们的隐私。

但情况不必如此。有一种方法可以完全模糊某人的 DNA 记录(并且,要明确的是,一般而言的敏感数据集),同时仍然保持数据的有用性:通过加密它。向全同态加密 (FHE) 问好。这可能拗口,但实际上是一种相当简单的下一代密码学类型,它非常安全,即使是未来的量子计算机也无法破解它。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


我们今天常用的加密技术并不能使我们的数据完全安全。每当需要运行任何计算时,例如对测序基因组进行必要的医学基因检测,都必须解密数据。无论多么短暂,数据都容易被盗和泄露。

然而,使用 FHE,数据永远不会被解密。信息以这样一种方式编码,使其始终保持加密状态——无论是在传输还是存储时,以及在任何计算期间。数据保持密码学上的混乱,以在处理过程中保护隐私,以便即使是处理数据的人也无法知道内容。因此,即使数据确实被盗或泄露,它们仍将保持安全加密。接收者只需使用特殊的密钥解密结果,此操作不会泄露有关来源的任何信息。

即使当量子计算机变得足够强大以破解现代密码学(轻松破解典型的加密算法)时,它们也无法破解同态加密。这是因为 FHE 基于格的数学——重复的、多维的网格状点集合。基于格的加密方案将数据隐藏在这样的集合中,与某个点保持一定距离。对于量子计算机和传统计算机来说,计算加密消息距离格点的距离都极其困难。

科学家们在 1970 年代首次开始研究同态加密,但直到十年前它仍然是纯粹的研究。 2009 年,计算机科学家克雷格·金特里 (Craig Gentry) 开发了第一个 FHE 方案,作为其博士论文的一部分。在随后的几年里,当他在 IBM Research 与合作者一起工作时,该技术不断得到改进,变得更快、更精确。保护基因组隐私只是 FHE 的一种可能用途。它可以用于保护任何敏感数据,无论是医疗记录还是财务信息。

同态加密还解决了数据共享问题——这对于欧洲的 GDPR 法规、一个国家的特定隐私法甚至公司自身的法规至关重要。例如,以银行为例。如果两个部门要共享他们的数据,一个部门处理保险,另一个部门处理投资,就会有数据聚合,使数据分析师可以访问所有数据。使用 FHE,分析师不会知道数据是关于什么的。

去年,巴西银行 Banco Bradesco 与 IBM 合作,在真实财务数据上试用 FHE 技术。研究人员表明,可以在加密数据上执行预测,在处理过程中隐藏数据。首先,他们加密了现有的基于机器学习的预测模型,并以与未加密时相同的精度运行预测。然后,他们使用新的加密数据重新训练模型,并表明可以使用同态加密来保护数据的隐私,永远不会泄露任何客户信息。

目前,FHE 的计算要求远高于典型的现代加密,这使得该过程耗时更长。但是该技术不断改进,并且在不久的将来可能会变得足够快以用于许多不同的应用。当这种情况发生时,它应该成为敏感数据(尤其是医疗和基因组数据)的默认加密选项。因为归根结底,没有什么比我们自己和我们孩子的基因构成数据更重要的了——关于是什么让我们成为“我们”的信息。

Dario Gil 是 IBM Research 的主管,IBM Research 是世界上最大的、最有影响力的企业研究实验室之一,在六大洲的 19 个地点拥有 3,000 多名科学家。他是 IBM 75 年历史上的第 12 任主管。他领导 IBM 的创新工作,指导人工智能、云计算、量子和探索科学领域的研究战略。他是 COVID-19 高性能计算联盟的创始人和联合主席。

更多作者:Dario Gil
© . All rights reserved.