
以下文章经许可转载自The Conversation,这是一个报道最新研究的在线出版物。
人类正在以惊人的速度产生数据,以至于存储技术无法跟上。每五年,我们产生的数据量就会增加 10 倍,包括照片和视频。并非所有数据都需要存储,但数据存储制造商生产硬盘和闪存芯片的速度不够快,无法 容纳我们想要保留的内容。既然我们不会停止拍照和录制电影,我们就需要开发新的方法来保存它们。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
千百年来,自然进化出一种令人难以置信的信息存储介质——DNA。它进化为存储遗传信息,即构建蛋白质的蓝图,但 DNA 的用途远不止于此。DNA 也比现代存储介质密度更高:数十万张 DVD 的数据可以装在一个 火柴盒大小的 DNA 包装中。DNA 也更加耐用——可以持续数千年——而今天的硬盘可能只能持续 数年或数十年。而且,虽然硬盘格式和连接标准会过时,但 DNA 永远不会过时,至少只要有生命存在。
将数字数据存储在 DNA 中的想法已经有 几十年历史了,但 哈佛大学和 欧洲生物信息学研究所 最近的工作表明,现代 DNA 操作方法的进步可能使之在今天既可行又实用。许多研究小组,包括 苏黎世联邦理工学院、伊利诺伊大学厄巴纳-香槟分校 和 哥伦比亚大学 的研究小组,都在研究这个问题。我们在华盛顿大学和微软的 研究小组 保持着世界纪录,即成功存储在 DNA 中并从中检索的数据量——200 兆字节。
准备将比特转化为原子
硬盘、U 盘或 DVD 等传统介质通过改变材料的 磁性、电特性 或 光学特性 来存储数字数据,从而存储 0 和 1。
要将数据存储在 DNA 中,概念是相同的,但过程是不同的。DNA 分子是由称为核苷酸的较小分子组成的长序列——腺嘌呤、胞嘧啶、胸腺嘧啶和鸟嘌呤,通常表示为 A、C、T 和 G。DNA 存储不是像电子介质那样创建 0 和 1 的序列,而是使用核苷酸的序列。
有几种方法可以做到这一点,但总体思路是将数字数据模式分配给 DNA 核苷酸。例如,00 可以等同于 A,01 等同于 C,10 等同于 T,11 等同于 G。例如,要存储图片,我们从其作为数字文件的编码开始,例如 JPEG。该文件本质上是一个长串的 0 和 1。假设文件的前八位是 01111000;我们将它们分成对——01 11 10 00——它们分别对应于 C-G-T-A。这就是我们将核苷酸连接起来形成 DNA 链的顺序。
数字计算机文件可能非常大——即使是大型数据库也可能达到太字节大小。但是单个 DNA 链必须短得多——每个链只能容纳大约 20 字节。这是因为 DNA 链越长,化学合成就越困难。
因此,我们需要将数据分成更小的块,并在每个块中添加一个指示其在序列中位置的指示符。当需要读取 DNA 存储的信息时,该指示符将确保所有数据块保持正确的顺序。
现在我们有了一个关于如何存储数据的计划。接下来我们必须实际去做。
存储数据
在确定字母的排列顺序后,DNA 序列通过化学反应逐个字母地制造出来。这些反应由设备驱动,该设备接收装有 A、C、G 和 T 的瓶子,并将它们与液体溶液中的其他化学物质混合,以控制指定物理 DNA 链顺序的反应。
这个过程为我们带来了 DNA 存储的另一个好处:备份副本。化学反应不是一次制造一条链,而是一次制造多条相同的链,然后再继续制造该系列中下一条链的多个副本。
一旦 DNA 链被创建,我们需要保护它们免受 湿度和光照的损害。因此,我们将它们干燥并放入容器中,使其保持低温并阻挡水和光。
但是,只有当我们以后可以检索存储的数据时,存储的数据才有用。
读取回数据
要从存储器中读回数据,我们使用与 细胞基因组 DNA 分析完全相同的测序仪。这可以识别分子,为每个分子生成一个字母序列,然后我们将其解码为 0 和 1 的二进制序列。这个过程可能会在读取时破坏 DNA——但这正是备份副本发挥作用的地方:每个序列都有许多副本。
如果备份副本耗尽,则很容易制作重复副本来重新填充存储——就像自然界 一直复制 DNA 一样。
目前,大多数 DNA 检索系统都需要读取存储在特定容器中的所有信息,即使我们只需要少量信息。这就像读取整个硬盘的信息,只是为了找到一封电子邮件。我们已经开发了基于 经过充分研究的生物化学方法 的技术,使我们能够 识别和读取 用户需要从 DNA 存储中检索的 特定信息片段。
剩余的挑战
目前,DNA 存储还处于实验阶段。在它变得普遍之前,它需要完全自动化,并且构建 DNA 和读取 DNA 的过程都必须改进。它们都容易出错且相对缓慢。例如,今天的 DNA 合成技术使我们能够每秒写入几 百字节;现代硬盘每秒可以写入 数亿字节。一张普通的 iPhone 照片需要几个小时才能存储在 DNA 中,尽管在手机上保存或传输到电脑上不到一秒钟。
这些都是重大的挑战,但我们很乐观,因为所有相关技术都在快速进步。此外,DNA 数据存储不需要生物学所需的完美精度,因此研究人员很可能会找到更便宜、更快捷的方法来将信息存储在自然界最古老的数据存储系统中。
本文最初发表于 The Conversation。阅读 原文。