DNA:终极数据存储解决方案

双螺旋结构可以在几乎难以想象的小体积内存储惊人的信息量

A double helix whose strands are covered in tiny numbers.

在一个数据泛滥的世界中,如何经济高效地找出数据存储地点和方式日益成为一个更大的问题。其中一种最奇特的解决方案可能最终成为最佳方案之一:将信息存档在DNA分子中。

目前主流的长期冷存储方法可以追溯到20世纪50年代,是将数据写入披萨大小的磁带卷轴上。相比之下,DNA存储可能更便宜、更节能且更持久。研究表明,适当用盐封装的DNA在室温下保持稳定数十年,并且在数据中心的受控环境中应该持续更长时间。DNA不需要维护,并且存储在DNA中的文件可以轻松复制,成本可忽略不计。

更棒的是,DNA可以在几乎难以想象的小体积内存储惊人的信息量。考虑一下:到2025年,人类将产生估计为33泽字节的数据——那是3.3后面跟着22个零。DNA存储可以将所有这些信息压缩到一个乒乓球中,并且还有剩余空间。美国国会图书馆中7400万亿字节的信息可以被塞进一个罂粟籽大小的DNA档案中——超过6000倍。将这颗种子分成两半,你就可以存储所有Facebook的数据。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。


科幻小说?绝非如此。DNA存储技术今天已经存在,但为了使其可行,研究人员必须清除围绕整合不同技术的一些令人生畏的技术障碍。作为一项重要的合作工作的一部分,我们在洛斯阿拉莫斯国家实验室的团队开发了一种用于分子存储的关键使能技术。我们的软件,自适应DNA存储编解码器 (ADS Codex),将计算机理解的零和一的二进制语言中的数据文件转换为生物学理解的四字母代码。

ADS Codex是情报高级研究计划署 (IARPA) 分子信息存储 (MIST) 计划的关键组成部分。MIST 旨在为政府和私营部门的大数据运营带来更便宜、更大、更持久的存储,短期目标是在 24 小时内以 1,000 美元的成本写入 1 太字节(万亿字节)并读取 10 太字节。

从计算机代码到遗传代码

当大多数人想到 DNA 时,他们想到的是生命,而不是计算机。但 DNA 本身就是一种四字母代码,用于传递有关生物体的信息。DNA 分子由四种类型的碱基或核苷酸组成,每种碱基或核苷酸都用一个字母标识:腺嘌呤 (A)、胸腺嘧啶 (T)、鸟嘌呤 (G) 和胞嘧啶 (C)。它们是所有 DNA 代码的基础,为地球上每个生物体的构建提供了说明手册。

DNA 合成是一种相当成熟的技术,已广泛应用于医药、制药和生物燃料开发等领域。该技术将碱基组织成由 A、C、G 和 T 的特定序列指示的各种排列。这些碱基以扭曲的链状相互缠绕——熟悉的双螺旋结构——形成分子。这些字母排列成序列,创建了一个代码,告诉生物体如何形成。

DNA 分子的完整集合构成了基因组——你身体的蓝图。通过合成 DNA 分子——从头开始制造它们——研究人员发现他们可以指定或写入字母 A、C、G 和 T 的长字符串,然后再读回这些序列。该过程类似于计算机存储二进制信息的方式。从那里,将二进制计算机文件编码到分子中只是一个很小的概念步骤

该方法已被证明可行,但当前读取和写入 DNA 编码的文件需要很长时间。向 DNA 添加单个碱基大约需要一秒钟。以这种速度写入存档文件可能需要数十年,但研究正在开发更快的方法,包括一次写入多个分子的并行大规模操作。

翻译中无损耗

ADS Codex 准确地说明了如何将零和一转换为 A、C、G 和 T 的四字母组合序列。Codex 还处理解码回二进制。DNA 可以通过多种方法合成,ADS Codex 可以适应所有方法。

不幸的是,与传统的数字系统相比,使用 DNA 合成写入分子存储时的错误率非常高。这些错误与数字世界中的错误来源不同,因此更难纠正。在数字硬盘上,当零翻转为一或反之亦然时,会发生二进制错误。对于 DNA,问题来自插入和删除错误。例如,您可能正在写入 A-C-G-T,但有时您尝试写入 A,但没有任何内容出现,因此字母序列向左移动,或者它键入 AAA。

正常的纠错码在这种问题上效果不佳,因此 ADS Codex 添加了错误检测码来验证数据。当软件将数据转换回二进制时,它会测试以查看代码是否匹配。如果它们不匹配,它会删除或添加碱基——字母——直到验证成功。

智能扩展

我们已经完成了 ADS Codex 的 1.0 版本,并计划在今年晚些时候使用它来评估其他 MIST 团队开发的存储和检索系统。这项工作非常符合洛斯阿拉莫斯作为我们国家安全使命一部分在计算领域开创新发展的历史。自 20 世纪 40 年代以来,作为这些计算进步的成果,我们积累了一些最古老和最大的纯数字数据存储。它仍然具有巨大的价值。因为我们永久保存数据,所以在寻找冷存储解决方案方面,我们长期以来一直处于领先地位,但我们并非孤军奋战。

世界上所有的数据——你所有的数字照片和推文;全球金融部门的所有记录;所有农田、部队调动和冰川融化的卫星图像;现代科学如此多的基础模拟;以及更多——都必须去某个地方。“云”根本不是云。它是巨大仓库中的数字数据中心,消耗大量电力来存储(并保持冷却)数万亿兆字节。这些数据中心的构建、供电和运行成本达数十亿美元,随着数据存储需求的持续指数级增长,它们可能难以维持生存。

DNA 在满足世界对数据存储的巨大需求方面显示出巨大的潜力。该技术需要新工具和应用熟悉工具的新方法。但如果有一天世界上最有价值的档案在一个罂粟籽大小的分子集合中找到新家,请不要感到惊讶。

ADS Codex 的资金由情报高级研究计划署 (IARPA) 提供,IARPA 是国家情报总监办公室下的一个研究机构。 

这是一篇观点和分析文章。

© . All rights reserved.