据软件公司 Domo 称,2018 年每分钟,谷歌进行了 388 万次搜索,人们在 YouTube 上观看了 433 万个视频,发送了 159,362,760 封电子邮件,发布了 473,000 条推文,并在 Instagram 上发布了 49,000 张照片。到 2020 年,全球每人每秒将产生约 1.7 兆兆字节的数据,假设世界人口为 78 亿,这相当于一年约 418 泽字节(相当于 4180 亿个 1TB 硬盘的信息)。目前存储这些 0 和 1 的磁或光数据存储系统通常无法持续超过一个世纪,如果能达到的话。此外,运行数据中心需要消耗大量能源。简而言之,我们即将面临严重的数据存储问题,而且随着时间的推移只会变得更加严重。
硬盘的替代方案正在取得进展:基于 DNA 的数据存储。DNA 由 A、T、C 和 G 四种核苷酸的长链组成,是生命的信息存储材料。数据可以存储在这些字母的序列中,使 DNA 成为一种新的信息技术形式。它已经可以轻松地进行常规测序(读取)、合成(写入)和精确复制。DNA 也非常稳定,对 50 多万年前的马的化石进行了完整的基因组测序就证明了这一点。而且存储它不需要太多能量。
但其闪光点在于存储容量。DNA 可以以远超电子设备的密度准确地存储海量数据。例如,根据哈佛大学的乔治·丘奇及其同事 2016 年在《自然·材料》杂志上发表的计算结果,简单的细菌大肠杆菌的存储密度约为每立方厘米 1019 位。按照这个密度,一个边长约为一米的 DNA 立方体就可以很好地满足全球一年的当前存储需求。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
DNA 数据存储的前景不仅仅是理论上的。例如,2017 年,丘奇在哈佛大学的团队采用了 CRISPR DNA 编辑技术,将人手的图像记录到大肠杆菌的基因组中,读取准确率超过 90%。华盛顿大学和微软研究院的研究人员开发了一个全自动系统,用于写入、存储和读取编码在 DNA 中的数据。包括微软和 Twist Bioscience 在内的多家公司正在努力推进 DNA 存储技术。
与此同时,研究人员正在以不同的方式使用 DNA 来管理数据,他们正努力理解海量数据。下一代测序技术的最新进展使得可以轻松且同时读取数十亿个 DNA 序列。凭借这种能力,研究人员可以采用条形码技术——使用 DNA 序列作为分子识别“标签”——来跟踪实验结果。DNA 条形码技术现在被用于显著加快化学工程、材料科学和纳米技术等领域的研究步伐。例如,在佐治亚理工学院,James E. Dahlman 的实验室正在快速识别更安全的基因疗法;其他人正在研究如何对抗耐药性和预防癌症转移。
使 DNA 数据存储普及面临的挑战包括读取和写入 DNA 的成本和速度,如果要与电子存储竞争,还需要进一步降低。即使 DNA 不会成为一种普遍存在的存储材料,它几乎肯定会被用于生成全新规模的信息,并在长期内保存某些类型的数据。