研究人员在过去几年中利用从化石中提取的 DNA 片段,解码了猛犸象和一匹 70 万年前马的基因组。DNA 显然比它携带遗传密码的生物体存在的时间更长。
计算机科学家和工程师长期以来梦想着利用 DNA 的微小和弹性来存储数字数据。这个想法是将所有的 0 和 1 编码到构成扭曲的梯形 DNA 聚合物的分子 A、C、G 和 T 中——而这十年在 DNA 合成和测序方面的进步使这项技术向前迈进了一大步。最近的实验表明,我们或许有一天能够将全世界的数字信息编码到几升 DNA 中——并在数千年后将其读回。
现在,微软和其他科技公司的兴趣正在为该领域注入活力。微软研究院上个月宣布,它将向合成生物学初创公司 Twist Bioscience 支付一笔未公开的金额,以制造 1000 万条 DNA 链,这些链由微软的计算机科学家设计,用于存储数据。顶级内存制造商美光科技也在资助 DNA 数字存储研究,以确定基于核酸的系统是否可以扩展电子存储器的极限。研究人员表示,资金和兴趣的涌入可能会推动研究和进步,最终降低当前高昂的成本,并在十年内使 DNA 数据存储成为可能。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
到 2017 年,人类将产生超过 16 万亿 GB 的数字数据,其中大部分需要存档:例如:法律、金融和医疗记录以及多媒体文件。今天,数据存储在耗能巨大的仓库大小的数据中心的硬盘驱动器、光盘或磁带上。这些介质的寿命从几年到最多三十年不等。此外,微软研究院计算机架构师卡琳·斯特劳斯说,“我们产生的数据量远远超过存储行业生产的设备,并且预测表明,这种差距预计会扩大。”
DNA 由此应运而生。如果保持寒冷和干燥,它可以持续数个世纪。理论上,它可以将数十亿 GB 的数据压缩到一块方糖大小的空间中。如今密度最高的存储介质磁带在相同的空间中可容纳 10 GB。“DNA 是一种令人难以置信的密集、耐用、非易失性存储介质,”伊利诺伊大学厄巴纳-香槟分校的电气和计算机工程教授 奥尔加·米伦科维奇 说。
这是因为它的四个基本分子——腺嘌呤 (A)、胞嘧啶 (C)、鸟嘌呤 (G) 和胸腺嘧啶 (T)——每个的体积只有立方纳米级。科学家可以使用一种编码系统——最简单的,例如 A 代表比特“00”,C 代表“01”,依此类推——科学家可以获取构成数字数据文件的 0 和 1 字符串,并设计一条DNA 链来映射图像或视频。(当然,科学家使用的实际编码技术要复杂得多。)合成设计师 DNA 链是数据写入部分。然后,科学家可以通过测序链来读取数据。
哈佛大学遗传学家 乔治·丘奇在 2012 年启动了这个领域,他在一立方毫米的 DNA 中编码了 700 亿份书籍——一百万吉比特。一年后,欧洲生物信息学研究所的研究人员表明,他们可以毫无错误地读取存储在 DNA 中的 739 KB 数据。
在过去一年中,一些团队已经展示了功能齐全的系统。8 月,苏黎世联邦理工学院的研究人员将合成 DNA 封装在玻璃中,将其暴露在模拟 2000 年的条件下,并准确地恢复了其编码数据。与此同时,米伦科维奇和她的同事报告说,他们将六所美国大学的维基百科页面存储在 DNA 中,并通过给序列特殊的“地址”——选择性地读取和编辑书面文本的部分内容。她说,这种对数据的随机访问对于避免“为了只读一个段落而必须对整本书进行测序”至关重要。
今年 4 月,微软的斯特劳斯和华盛顿大学的计算机科学家乔治·西利格和路易斯·塞泽报告说,他们能够使用他们自己的编码方案,将三个图像文件(每个文件几十 KB)写入 40,000 条 DNA 链中——然后毫无错误地单独读取它们。他们在 4 月举行的计算机协会会议上展示了这项工作。凭借微软从 Twist Bioscience 购买的 1000 万条链,该团队计划证明 DNA 数据存储可以在更大的规模上工作。“我们的目标是演示一个端到端系统,在该系统中,我们将文件编码到 DNA,合成分子,长期存储它们,然后通过取出 DNA 并对其进行测序来恢复它们,”斯特劳斯说。“从比特开始,再回到比特。”
内存制造商美光科技正在探索 DNA 作为后硅技术。该公司正在资助哈佛大学的丘奇和博伊西州立大学的研究人员的工作,以探索无错误 DNA 存储系统。“数据存储成本的上升将推动替代解决方案,而 DNA 存储是更有希望的解决方案之一,”美光科技先进技术开发主管 古尔捷·桑德胡 说。
这些研究人员仍在研究如何降低数据编码和解码中的错误率。但是该技术的主要部分已经到位。那么,是什么阻止我们拥有装满 DNA 加载玻璃胶囊的鞋盒大小的数据保险库呢?成本。“写入过程的成本大约高了一百万倍,”西利格说。
原因如下:制造 DNA 涉及高精度地将纳米级分子逐个串联在一起——这不是一件容易的任务。尽管由于疾病筛查和诊断等医疗应用的蓬勃发展,测序成本已大幅下降,但DNA 合成却没有类似的市場驱动因素。米伦科维奇支付了大约 150 美元来合成一串 1000 个核苷酸。对一百万个核苷酸进行测序的成本约为 1 美分。
西利格说,微软和美光科技对数据存储的兴趣可能正是开始降低成本所需的推动力。巧妙的工程和微流体和纳米孔 DNA 测序等新技术也将是关键,这些技术有助于小型化和加速进程。目前,使用多种仪器和人工制备 DNA,需要几个小时才能对几百个核苷酸对进行测序——需要几天才能合成它们。“你会希望这一切都在一个非常小的盒子里完成,否则你就会失去 DNA 存储密度的优势,”西利格解释道。
如果一切顺利,微软的斯特劳斯设想公司将在未来十年内提供存档 DNA 存储服务。“您可以打开浏览器并将文件上传到他们的网站或取回您的字节,就像云存储一样,”她说。或者,随着 DNA 合成和测序方面尚未实现的突破,“您可以购买 DNA 驱动器而不是磁盘驱动器。”