早在人类发明硬盘驱动器数十亿年前,进化就选择了 DNA 来存储其最珍贵的信息:遗传密码。随着时间的推移,DNA 在这项任务中变得如此精通,以至于地球上所有已知的生命形式都使用它。随着最近的技术突破使我们能够轻松地“读取”和“写入” DNA,科学家们现在正在重新利用这种古老的分子来存储新型信息——人类在大数据时代正以指数级速度生成的信息。
重新利用 DNA 来存储遗传密码以外的信息的概念已被广泛讨论。毕竟,计算机代码的 1 和 0 正逼近物理学的极限。最近,曾经是最受欢迎的社交网络 Myspace 宣布,在服务器迁移项目中,十年的数据可能已永久丢失,这暴露了安全存储我们创建的所有数据的挑战之一。数据的长期保护,例如在一个休眠期后重启的网站的数据,暴露了现有技术的脆弱性和笨拙之处。而且这不仅仅是一个空间问题:维护数据存储需要大量的能源。
DNA 的特性有可能解决这些问题。首先,DNA 的双螺旋结构非常适合信息存储,因为知道一条链的序列会自动告诉你另一条链的序列。DNA 也可在较长时间内保持稳定,这意味着信息的完整性和准确性可以得到维护。例如,在 2017 年,科学家分析了从 8100 年前的人类遗骸中分离出的 DNA。这些遗骸甚至在整个时间内都没有在理想的条件下保存。如果保存在阴凉干燥的环境中,DNA 几乎肯定可以持续数万年。DNA 也可在较长时间内保持稳定,这意味着信息的完整性和准确性可以得到维护。
支持科学新闻事业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
然而,双螺旋结构最引人注目的方面也许是它可以折叠成非常密集的结构。为了比较,每个人体细胞都包含一个直径约为 0.00001 米的细胞核。然而,如果将单个细胞核内的 DNA 拉伸开来,它将达到两米。换句话说,如果将一个人体内的 DNA 串在一起,它将延伸 100 万亿米。2014 年,科学家们计算出,理论上可以将 455 艾字节的数据存储在一克 DNA 中。这种信息存储密度比硬盘驱动器中的物理存储密度高约一百万倍。
尽管 DNA 通常被认为是存储介质,但在它可能取代传统硬盘驱动器之前,仍有重大的科学、经济和伦理障碍需要克服。与此同时,DNA 正日益广泛地——并且立即地——作为一种更广泛的信息技术变得有用。例如,DNA 已被用于记录老好莱坞电影,将经典影片保存在遗传密码中,而不是脆弱的微缩胶片中。甚至在最近,DNA 已被用作设计更安全的基因疗法、加速抗癌药物开发,甚至生成可能是第一个活生物体的基因“直播”的工具。在这个不断发展的领域的前沿,人们追求 DNA 不仅仅是为了长期数据存储,也是为了促进前所未有的数据生成速度。这是因为 DNA 比任何其他分子在两个方向上都更具可扩展性:它使我们能够大幅扩展我们创建的数据量,并缩小存储它们所需的资源。
加速新型纳米粒子
近年来,科学家们越来越多地使用 DNA 作为分子记录器,以了解和跟踪他们的实验结果。在许多情况下,这个过程涉及 DNA 条形码:为了标记和跟踪单个实验的结果,科学家们使用已知的 DNA 序列作为分子标签。例如,一个实验结果可能与 DNA 序列 ACTATC 相关联,而另一个结果可能与 TCTGAT 相关联,依此类推。
DNA 条形码技术自 1990 年代初期就已出现,当时斯克里普斯研究所的理查德·勒纳 (Richard Lerner) 和已故的悉尼·布伦纳 (Sydney Brenner) 都提出了将其作为跟踪化学反应的一种方法。他们的概念非常具有创新性,但却超前于时代:能够轻松且廉价地读出 DNA 的技术尚未开发出来。其潜力只有在许多科学家为核苷酸化学、微流体和其他方法做出贡献之后才得以实现,这些方法共同促成了所谓的下一代测序的出现。2005 年,研究人员报告说,在一个四小时的实验中分析了 2500 万个 DNA 碱基,这是一个重大的突破。
下一代测序技术持续快速改进;现在可以轻松地同时读取数百万个 DNA 序列,这意味着可以同时进行和分析数千个实验。使用下一代测序技术分析 DNA 条形码实验本身就是一种数据管理形式:科学家们可以一次性提出 20,000 个预测并全部进行测试,以查看哪个是正确的,而不是一次测试一个想法。
生物学家是第一个广泛利用 DNA 条形码技术的人。随着这项技术变得更容易获得,包括化学工程和材料科学在内的许多不同领域的研究人员正在使用这项技术以全新的规模进行实验。例如,在我位于佐治亚理工学院的实验室中,工程师们正在使用 DNA 条形码来改进纳米粒子的设计和功能,以便它们能够安全地将药物输送到病变细胞。纳米技术主要依赖于物理学和化学工程,似乎与 DNA 完全无关。但是,当您将 DNA 视为跟踪和存储任何数据的一种方式时,它作为一种组织工具的效用就变得显而易见了。

致谢:詹·克里斯蒂安森 (Jen Christiansen);来源:“数百种纳米粒子介导的体外和体内核酸递送的直接比较揭示了弱相关性”,作者:卡琳娜·帕诺夫斯卡 (Kalina Paunovska) 等人,载于《纳米快报》 Nano Letters,第 18 卷,第 3 期;2018 年 3 月 14 日
纳米技术学家面临的一个基本问题是,设计实验来寻找有效的疗法仍然比执行实验和分析结果容易得多。这是因为单个纳米粒子的形状、大小、电荷、化学成分和许多其他变量都会改变它们将基因药物输送到病变细胞的效果。此外,这些因素相互作用,使得研究人员很难预测哪种纳米粒子将以最靶向的方式输送其药物。一个显而易见的解决方案是逐一评估每个纳米粒子。但是,已开发出 RNA 药物纳米粒子的老牌制药公司的数据表明,这种类型的测试可能需要数亿美元才能完成。
这就是 DNA 的存储能力可以取得重大进展的地方。为了增加我们能够测试的纳米粒子的数量,我们可以设计数千种具有不同化学结构的纳米粒子——例如,大的、带正电荷的球体或小的、不带电荷的三角形——并为每种纳米粒子分配一个 DNA 条形码。
纳米粒子一号,具有化学结构一,携带 DNA 条形码一。纳米粒子二号,具有化学结构二,携带 DNA 条形码二。我们多次重复此条形码编码过程,从而创建许多不同的纳米粒子,每种纳米粒子都有其独特的分子 DNA 标签。然后,我们可以将数百种这些纳米粒子施用于病变细胞。为了识别最成功地递送药物的纳米粒子,我们使用 DNA 测序来量化细胞内的条形码。
这种实验的规模对于纳米医学来说是全新的。“传统”的实验在我的领域中产生一到五个数据点。到 2019 年底,我的实验室希望量化 500 种不同的纳米粒子如何将基因疗法输送到 40 种不同的细胞类型。这样做相当于同时运行 20,000 个实验。
因此,我们还需要创建一个数据分析管道,该管道能够监控数据质量,并帮助我们统计性地测试我们的结果。首先,我们测量了一个重复实验的结果在多大程度上预测了另一个实验的递送效果。一旦我们知道大型数据集是可靠的,我们就使用统计学方法来询问某些纳米粒子特征(例如它们的大小)是否会影响向靶组织的递送。我们发现,纳米粒子的化学性质,而不是它的大小,决定了纳米粒子的递送效果。通过这种方法,我们希望使用更少的资源更快地发现安全的基因疗法。我们的目标之一是找到一种可以特异性地递送基因疗法以帮助杀死肿瘤的纳米粒子,从而减少诸如恶心和脱发等伴随现有治疗方法的副作用。
我们已经取得了一些成功。2018 年,通过使用 DNA 条形码实验生成的大型数据集,我们快速识别出将基因疗法输送到内皮细胞(血管内壁细胞)以及几种免疫细胞(控制我们身体对疾病的反应的细胞)的新型纳米粒子。这一发现可能会改变治疗方法,使我们能够改变免疫细胞中目前“不可成药”的蛋白质的活性,这意味着这些蛋白质很难用小分子药物或抗体靶向。由于 2018 年和 2019 年发表在包括美国国家科学院院刊、先进材料和美国化学学会杂志在内的期刊上的数据,我们收到了来自其他基因治疗师的大量兴趣,并得以成立 GuideRx,这是一家专注于高效开发安全基因疗法的条形码编码公司。
DNA 条形码编码现在已变得非常普遍,甚至在单个领域内也以不同的方式应用。癌症生物学就是一个例子,它研究基因突变如何导致癌症以及新药如何治疗癌症。耐药性仍然是该领域的一个主要挑战:患者通常最初对药物有反应,但随着药物失去杀死肿瘤细胞的能力而复发。
哈佛大学托德·戈卢布 (Todd Golub) 实验室的科学家们使用 DNA 条形码编码来研究这种耐药性。在 2016 年,他们描述了他们如何使用病毒将 DNA 条形码永久性地插入癌细胞的基因组中。癌细胞类型 A 接收条形码序列 A;癌细胞类型 B 接收条形码 B,依此类推。科学家们将不同的细胞混合在一起,将其铺在培养皿上,并用抗癌药物处理它们。
如果药物杀死了癌细胞或减缓了其生长,那么细胞就不会分裂。但是,如果细胞对药物产生耐药性,那么它就会迅速分裂。因此,随着时间的推移,如果细胞类型 A 对药物产生耐药性,则条形码序列 A 的相对量会增加;或者,如果细胞类型 A 被药物杀死,则条形码序列 A 的相对量会减少。通过对来自存活细胞的所有条形码进行测序,该实验室量化了所有细胞类型同时对药物的反应程度。
同年晚些时候,斯坦福大学蒙特·温斯洛 (Monte Winslow) 实验室使用 DNA 条形码化的胰腺细胞系来识别阻止癌症扩散或转移的药物。该实验室使用病毒对每个细胞系进行条形码编码,然后将每个细胞系铺在其自身的孔中。然后,用抗癌药物处理每个孔。通过这种方式,药物一与条形码一相关联。此后不久,科学家们将细胞注射到血液中,然后他们测量了哪些细胞扩散到肺部。通过识别丰富或缺失的条形码,研究人员分别识别出促进或阻止转移的药物。
在第三个例子中,麻省理工学院和哈佛大学布罗德研究所的科学家们使用 DNA 条形码编码来研究基因组中的所有基因如何影响单一癌症。研究人员首先培养了大量的细胞,并将它们一起铺在大型培养皿中。然后,他们使用基因编辑系统逐个灭活或激活基因组中的所有基因。其表达受到调节的基因的序列充当条形码。通过用抗癌药物处理细胞并随着时间的推移对 DNA 进行测序,科学家们可以了解基因组中的每个基因如何影响耐药性。
在这些方法中,DNA 既充当数据生成分子(因为它需要同时执行所有实验),又充当数据存储分子(因为下一代测序技术用于分析 DNA 条形码)。其意义令人震惊:相同的技术可以应用于自身免疫性疾病、神经系统疾病和心血管功能障碍。通过一个简单的练习可以理解使用 DNA 条形码编码的全部威力。在前面讨论的示例中,将“癌症”一词替换为不同的疾病,或将“耐药性”一词替换为任何期望的药物反应。通过这种方式,DNA 条形码编码定位于从根本上简化早期药物开发,从而加速有效疗法的问世。
读取与写入
DNA 条形码编码依赖于“读取”已知的 DNA 序列。然而,直到最近,实际“写入”DNA 序列还是不可能的。广义上讲,我将写入 DNA 理解为有目的地将其他形式的信息(例如图片、电影或生物学状态)转换为可以存储并在以后读出的序列。许多这些新的写入技术是由源自成簇规律间隔的短回文重复序列 (CRISPR) 的基因编辑系统驱动的。借助合理设计的 CRISPR 系统,科学家们可以写入 DNA 序列。
最近的几项进展利用了 CRISPR 系统自然进化来防御细菌免受病毒攻击的方式。更具体地说,病毒通过结合到细菌表面,然后插入其病毒 DNA 或 RNA 来攻击细菌。为了“记住”病毒以备将来攻击,细菌进化出了 CRISPR 系统,该系统可以识别病毒 DNA 或 RNA,然后将 DNA 的小片段插入到它们自己的基因组中。换句话说,细菌正在“写入”或“记录”攻击过它们的病毒的历史,以保护自己。

DNA 的双螺旋结构使其成为理想的存储介质。但它还无法取代传统的硬盘驱动器。致谢:Getty Images
通过利用这种机制,在哈佛大学遗传学家乔治·丘奇 (George Church) 实验室工作,现在在加州大学旧金山分校工作的塞思·希普曼 (Seth Shipman) 使用 CRISPR 将人手的图像直接记录到大肠杆菌的基因组中。为了完成这项任务,希普曼和他的同事首先表达了两种蛋白质:Cas1 和 Cas2。这两种蛋白质可以一起获取 DNA 核苷酸并将其插入基因组中。然后,研究人员将编码像素的大肠杆菌 DNA 序列“喂给”大肠杆菌,这些像素在测序后创建了手的图像。这样做需要科学家们将信息的不同方面分配给 DNA。例如,在一种情况下,A、C、G 和 T 各代表一种不同的像素颜色,而相关的 DNA 条形码序列编码了像素在整个图像中的空间位置。
通过对大肠杆菌的 DNA 进行测序,作者随后以超过 90% 的准确率重现了原始图像。接下来,他们重复了实验,但进行了一项重要的改进:他们以不同的时间添加了 DNA,并包含了一种分析记录的 DNA 序列相对于彼此的位置的方法。通过测量序列是较早还是较晚添加到大肠杆菌基因组中的,他们能够创建一系列图像,从而编码一部电影。研究人员记录了来自第一部电影的一部分 GIF,该电影由埃德沃德·迈布里奇 (Eadweard Muybridge) 于 1878 年创作,描绘了一匹奔腾的马。在 2017 年发表的一篇论文中,他们表明他们通过对细菌基因组进行测序重建了迈布里奇著名的电影。
甚至在最近,苏黎世联邦理工学院 (ETH Zurich) 兰德尔·普拉特 (Randall Platt) 实验室的科学家们做出了一项关键发现,通过靶向 mRNA(DNA 的关键分子近亲),使这些方法更进一步。他们没有记录由非天然 DNA 序列编码的图像,而是使用来自不同细菌物种的 CRISPR 系统来生成细菌中天然 mRNA 基因表达的所谓活体记录。细胞中所有不同 mRNA 的组合决定了制造哪些蛋白质,从而决定了所有细胞功能。
为了记录细胞在不同时间点产生的 mRNA,普拉特实验室的科学家们首先筛选了来自许多不同细菌菌株的 CRISPR-Cas 蛋白。这个过程使他们能够识别出能够将天然 mRNA 转化为 DNA 并将其编码到基因组中的蛋白质。他们发现来自腐败梭菌 (Fusicatenibacter saccharivorans) 的 Cas1 和 Cas2 蛋白能够做到这一点。通过一系列使用特化病毒的优雅研究,该团队在 2018 年证明,细胞准确地记录了它们是否曾暴露于氧化应激、酸性条件甚至除草剂。
这些结果非常令人兴奋,因为它们证明了细胞在给定时间自然表达的基因可以记录到基因组中以供日后分析。随着普拉特实验室继续改进这项技术,细胞记录变得越来越可行。这项发展将使科学家们能够跟踪细胞如何癌变、随着时间的推移对感染做出反应,甚至衰老。
DNA 存储的普及
随着 DNA 被用于在越来越多的领域中生成、跟踪和存储信息,最明显的问题是 DNA 最终是否会与传统的电子存储设备竞争,以维护人类生成的所有数字数据。目前,答案是否定的——即使是最先进的 DNA 系统,硬盘驱动器和闪存设备在保存信息方面也远胜于它们。
但是,与所有技术一样,传统的电子设备也存在局限性。它们占用物理空间并需要特定的环境条件;即使是最耐用的设备也不太可能存活超过几十年。考虑到这些问题,可能很快就难以维护我们今天正在生成的所有数据。
相比之下,如果保存在阴凉干燥的条件下,DNA 几乎肯定可以持续数万年。在需要非常冷条件的实验室中,DNA 通常在 −20 甚至 −80 摄氏度的温度下存储,也可以在典型电子设备无法承受的极端高温下存储。2015 年,苏黎世联邦理工学院的罗伯特·格拉斯 (Robert Grass) 和温德林·斯塔克 (Wendelin Stark) 表明,存储在二氧化硅中的 DNA 可以在 70 摄氏度的温度下承受一周而不会引入任何错误。虽然硬盘驱动器每平方英寸可以容纳高达 1 太比特的数据,但最近的估计表明,全世界生成的所有信息理论上都可以存储在不到一公斤的 DNA 中。
DNA 存储要变得普遍,仍然需要克服重大的技术进步。主要的限制是存储信息与提取信息并不相同。从硬盘驱动器获取数据几乎是瞬间完成的;从 DNA 中提取数据需要测序,目前测序需要几分钟到一天的时间才能完成。尽管在过去几年中 DNA 测序仪取得了巨大的飞跃,但与硬盘驱动器相比,它们仍然体积庞大且价格昂贵。
在 DNA 存储充分发挥其潜力之前,我们需要解决的障碍不仅仅是这些技术障碍。作为一个社会,我们需要认识到,DNA 测序的普及也意味着跟踪人们将变得更加容易,同时也会为数据安全带来新的漏洞。在美国和全球范围内,隐私问题比比皆是。
在美国各地,警察部门已经在几乎没有监督的情况下使用 DNA 测序。通过要求被捕的人(即使是轻微犯罪)提供他们的 DNA,警察正在建立大型遗传信息数据库。有些人认为这是 21 世纪的老式指纹识别的翻版,但存在一个关键的区别。指纹识别的是单个个体;如果您的亲戚提供了他或她的 DNA,那么该人正在发布可以识别您或您家任何其他成员的信息。在中国,在健康计划的幌子下,官员们收集了近 3600 万人的遗传信息。这个人群包括许多维吾尔族人——一个遭受歧视的穆斯林少数民族。目前尚不清楚政府将如何使用这些数据。
目前,围绕 DNA 存储的这些担忧涉及个人的遗传密码本身——讨论的重点是保护身份。但是,未来,如果其他类别的信息(例如医疗保健数据、法律合同和个人数字历史记录)存储在 DNA 中,这种情况将引发更多关于 DNA 存储在物理安全和网络安全领域中的脆弱性的问题。由于如此多的信息可以存储在如此小的空间中,将如何分配数据以避免在单个地点过度集中?即使提取可以简化,如何在不将数据暴露于恶意黑客攻击或意外丢失的情况下,定期访问和返回数据?
当我考虑到需要完成的所有艰苦工作——无论是科学上的还是伦理上的——时,它可能显得令人生畏。我喜欢想起莱特兄弟,因为我在他们长大的同一个俄亥俄州小镇长大。他们的第一次飞行持续了 12 秒和 37 米。六十六年后,在没有现代计算优势的情况下,人类登上了月球。这些壮举让我感到乐观,我们可以在未来几十年内利用 DNA 的自然力量,并通过积极承认其作恶的能力,帮助确保它主要做好事。