如果每个人都必须依赖闪存——存储卡和 U 盘中使用的数据存储系统——到 2040 年,世界预计产生的信息量将超过地球微芯片级硅的预期供应量,最多可达 100 倍。为了防止此类危机,研究人员一直在探索一种生命本身赖以生存的 存储材料:DNA。
从理论上讲,这种物质可以存储大量信息——高达 每立方毫米 DNA 一艾字节(十亿千兆字节)——长达数千年。(作为大多数数字档案基础的磁带的最大寿命约为 30 年,但 70 万年前化石 中的 DNA 仍然可以测序。)然而,使 DNA 数据存储成为现实 的一个障碍是创建或合成符合所需代码的新 DNA 序列的过程缓慢、昂贵且容易出错。
伊利诺伊大学厄巴纳-香槟分校的编码理论家,也是一项关于该主题的新研究的共同资深作者 奥尔吉卡·米伦科维奇 说:“合成 DNA 是记录成本、准确性和写入速度方面的主要瓶颈。”她和她的同事们提出了一种新颖的解决方案:不是从头开始定制合成 DNA,而是用“切口”模式标记现有的 DNA 分子来编码数据。这种方法的灵感来自穿孔卡片——一种硬纸条,上面在特定位置冲有孔,用于存储许多早期计算机的信息,包括二战时期的 ENIAC。研究人员于周三在《自然通讯》上 详细介绍了他们的技术。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
以前的 DNA 存储方法将称为碱基的四种关键 DNA 成分——腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤——视为电子位,即编码数字数据的 1 和 0。例如,每个碱基可能被分配来表示对 00、01、10 或 11。但是,新方法不是将一系列位转换为 DNA 代码并合成相应的碱基串,而是将现有的遗传物质视为有点像早期穿孔卡片的纸张。首席研究作者 S·卡斯拉·塔巴塔拜 是厄巴纳-香槟分校的合成生物学家,他说它应用酶作为“制造孔的装置”。在这种情况下,“孔”是构成 DNA 主链的分子的断裂键。这种标记的存在意味着 1,而它的缺失象征着 0。
布朗大学的理论化学家布伦达·鲁宾斯坦说,这项研究最有趣的方面是它如何依赖自然,她没有参与这项研究。她说,研究人员“让这些酶产生切口——做对它们来说最自然的事情——来存储信息”。
为了精确定位切口,该团队加热了 双链 DNA 分子——将每个分子想象成一个扭曲的梯子,梯子的横档由碱基对制成,纵轨由糖和磷酸盐制成——直到它们在中间稍微解开。这个过程基本上形成了气泡,使碱基暴露出来。接下来,科学家们部署了单链 DNA 分子,每个分子只有 16 个碱基长,它们附着在这些气泡内相应的碱基序列上。这些单链分子的末端充当引导,准确地告诉酶要去哪里。在 DNA 中,每个碱基与一个糖分子和一个磷酸基团连接,形成一种称为核苷酸的化合物。新技术中使用的酶切断一个核苷酸与另一个核苷酸连接的键,从而在糖-磷酸盐纵轨中产生切口。
由于这种方法不需要合成精确的 DNA 序列,研究人员表示,其主要优势之一是他们可以将几乎任何 DNA 分子都视为穿孔卡片。例如,他们用从容易获得的 大肠杆菌 菌株中廉价收获的遗传物质进行了实验,研究人员非常精确地了解这些菌株的序列。科学家们使用包含 450 个碱基对的细菌 DNA 链,每个链包含 5 到 10 个切口,编码了 亚伯拉罕·林肯的葛底斯堡演说 的 272 个单词——以及 林肯纪念堂 的 14 千字节图像。在将这些信息放置在 DNA 上后,他们使用商业测序技术以完美的精度读取了文件。
鲁宾斯坦说:“多年来,人们认为分子计算涉及将我们在硅中做的事情映射到分子上,这导致了这些精巧的鲁布·戈德堡装置。”“相反,这项新工作信任酶在数百万年的进化过程中变得非常高效。”
科学家们希望他们的工艺可能比那些依赖合成 DNA 的工艺便宜和快速得多。然而,他们表示,过去提出的 DNA 数据存储策略仍然提供了一些优势——例如,存储密度大约是穿孔卡片技术的 12 到 50 倍。米伦科维奇说:“目前 DNA 数据存储的最大问题不是密度;而是成本。”“而且我们的成本非常低,还可以进一步降低。”此外,她补充说,较旧的 DNA 存储系统不得不包含冗余序列,作为针对传统 DNA 合成容易出错的性质的保险。这种要求减少了它们实际可以容纳的数据量,缩小了它们与新技术之间的存储密度差距。