研究人员越来越擅长从家谱、医疗和警方基因数据库中挖掘信息,以至于保护任何人的隐私变得越来越困难,即使是那些从未提交 DNA 进行分析的人也是如此。
在 10 月 11 日发表的两项独立研究中,研究人员报告说,通过测试消费者基因数据库中包含的 128 万个样本,他们可以将 1.4 亿欧洲血统美国人中 60% 的 DNA 与三级表亲或更近的亲属进行匹配。他们在发表在《科学》杂志上的研究中表示,随着 AncestryDNA 和 23andMe 等消费者数据库中的样本数量增加,这一数字将很快上升到接近 100%。
在《细胞》杂志的第二项研究中,另一个研究小组表明,警方数据库(曾经被认为是由无意义的 DNA 组成,仅用于将嫌疑人与犯罪现场样本进行匹配)可以与基因数据库交叉链接,以将个人与其基因信息联系起来。“这两篇论文都展示了你能深入到一个家庭和一个群体到什么程度,”纽约大学法学院的法学教授艾琳·墨菲说。她表示,决定与消费者数据库共享 DNA 的消费者正在提供有关其父母、子女、他们不了解的三级表亲,甚至是可能指向尚未出生的孩子的线索的信息。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。
在第一项研究中,研究人员查看了 128 万欧洲血统美国人的数据库,发现这足以提供有关数百万不在数据库中的个人的信息。该数据库来自 MyHeritage 公司,该公司既测试基因组(AncestryDNA 和 23andMe 也是如此),也允许将它们上传以进行进一步的家谱分析,就像使用 GEDmatch 数据库一样。
Ancestry 和 23andMe 表示,他们会竭尽全力保护其测试结果的隐私,但当上传到其他数据库时,数据可能会被访问。“在美国拥有欧洲血统的个人中,找到三级表亲的机会约为 60%,”该论文的第一作者、MyHeritage 的首席科学官 Yaniv Erlich 说。他建议,可能应该加密基因数据以保护个人信息,尽管这可能会使警方和研究人员希望进行的搜索复杂化。(在本文发表后,23andMe 指出,只有当客户自行决定时才会上传到其他数据库。)
该技术依赖于远亲之间的联系。“把你的家庭想象成洋葱的层次,”他说。你最亲近的亲戚是父母、子女和兄弟姐妹。下一层是堂/表兄弟姐妹,你可能有很多。再下一层,你就到了二代堂/表兄弟姐妹,以此类推,直到你发现自己与许多你根本不认识的三代堂/表兄弟姐妹有亲戚关系。“当涉及到非常遥远的亲戚时,联系的机会要高得多,”他说。今年早些时候,这些类型的联系被用来识别所谓的金州杀人案中的一名嫌疑人,他与犯罪的联系部分是通过基因数据库中亲戚的 DNA 实现的。
一旦警方获得了与远亲的基因联系,他们就可以绘制一个庞大而复杂的族谱,可能过于庞大而无法分析。但是,然后他们可以根据其他数据(他们居住的地方、年龄、性别等等)排除许多相关的个人,Erlich 指出。其中大部分信息来自消费者广泛共享的族谱。以这种方式整理数据后,可以将大约 850 名亲属减少到 15 名,他们可能与相关犯罪有合理的联系。
然后,警方可以开始挨家挨户敲门,并进行他们通常进行的调查。“真正能够利用这些公共家谱数据库来识别个人,这在过去一年才变得清晰起来,”马萨诸塞州总医院分析和转化遗传学部门的负责人丹尼尔·麦克阿瑟说。“学术界并没有意识到这些数据库有多大,以及它们如何容易地被用来三角定位基因身份。”
第二项研究表明,警方数据库包含的基因信息比研究人员预期的要多。法医数据库保存着少量称为 STR 的识别标记的信息。消费者数据库使用更详细的标记面板,称为 SNP。直到最近,人们还认为两者之间没有联系。华盛顿大学生物统计学教授布鲁斯·韦尔说,现在很明显,法医数据库包含一些 SNP 信息。“对于执法部门来说,这意味着如果他们在自己的数据库中找不到匹配项,他们现在可以在其他数据库中寻找匹配项,”他说。他还指出,这也意味着他们可以追踪亲属的信息,而不仅仅是匹配个人。“实际上,这是一项巨大的进步。”他补充说,这引发了一个重要的隐私问题。“我是否应该担心,通过上传我的数据,我会让我的亲属容易被执法部门找到?”如果那些亲属犯了罪,这可能是可以接受的。“但是如果他们没有犯罪呢?”
纽约大学的墨菲说,当警方 DNA 数据库被设计出来时,其中的 DNA 应该是无意义的垃圾——只是可用于将个人与个人或证据进行匹配的 DNA 模式。因此,人们没有注意保护信息的隐私——就像对健康记录、手机使用、社交媒体帐户和其他信息所做的那样,她说。警方可以自由访问 DNA,即使没有犯罪发生,他们也要求提供样本。“这代表了刑事司法目的的遗传学与用于医疗诊断或家谱或任何与刑事司法完全无关的遗传学之间的高墙的崩溃,”她指出。
当被问及她是否会将她的 DNA 发送到消费者数据库时,她说:“绝对不会。但我有家庭成员已经这样做了。” 如果他们在数据库中,那么她也在其中。