如何研究复杂的微生物世界 – 第二部分:下一代测序技术

在本系列的第一部分中,我简要介绍了为什么对微生物的 DNA 进行测序是研究它们的一种有效方法。一个单独的微生物就像一个庞大图书馆中的一本书。

加入我们的科学爱好者社区!

本文发表在《大众科学》的前博客网络中,反映的是作者的观点,不一定代表《大众科学》的观点


在本系列的第一部分中,我简要介绍了为什么对微生物的 DNA 进行测序是研究它们的一种有效方法

一个单独的微生物就像一个庞大图书馆中的一本书。在过去的 100 年里,我们已经学会了在某种程度上阅读和解释生物系统的语言。但在大多数时间里,我们的研究仅限于从书架上取下单独的书籍并进行孤立的研究。

DNA 测序就像阅读一本用 DNA 编写的句子书 - 化学碱基 A、T、G 和 C 的序列。现在是时候讨论一下这实际上是如何完成的了。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过订阅来支持我们屡获殊荣的新闻报道。 通过购买订阅,您将有助于确保关于塑造当今世界的发现和想法的具有影响力的故事的未来。


桑格测序

正如我在上一篇文章中提到的,第一代测序技术是由 弗雷德里克·桑格 在 1970 年代开创的。他的方法利用了另一项非常重要的技术 - 聚合酶链反应 (PCR) - 这使得科学家能够在试管中复制 DNA 片段。通常在进行 PCR 时,您将 DNA 模板(您想要复制的内容)、引物(此处不重要 - 我们稍后会讨论)、一种称为“聚合酶”的酶(它将构建新的 DNA 片段)以及 DNA 的构建基块(那些 DNA 碱基,A、T、G 和 C)以酶可以使用的形式混合在一起。当这四件事混合在一起时,引物会粘附到模板 DNA 上,聚合酶会根据模板的序列添加 A、T、G 和 C。

但桑格使用了一个巧妙的技巧:除了 PCR 中使用的正常碱基外,桑格还加入了一小部分可以添加到链中但不能再添加的碱基。换句话说,如果聚合酶抓住了这个阻滞剂,反应就会停止。

假设我们将要 PCR 序列 AATCCCGTCAGT。我们在反应中加入大部分正常碱基 A、T、G 和 C,但加入少量修饰的 T*。如果这种核苷酸被酶抓住,它将被添加到链中,但反应将停止。如果我们不添加任何正常的 T,我们会得到一堆 AAT,并且每个反应都会在那里停止。但是,由于我们也添加了正常的 T,我们也会得到 AATCCCGT 和完整序列 AATCCCGTCAGT。桑格无法直接读取序列,但他可以确定每个片段的长度,因此他会看到在位置 3、8 和 12 处有一个 T。通过对每种类型的终止碱基进行单独的反应,可以确定每次添加每种碱基时返回的片段长度,从而确定完整的序列。

这个过程相当费力,但桑格方法的后续迭代为每个碱基使用了不同颜色的荧光标记,并且可以通过激光和显微镜观察它们添加到链中(技术上更复杂,但这是它的要点)。这些创新将 DNA 序列从一项高度专业化的技术转变为世界上大多数生物实验室每天都在使用的技术。桑格测序今天仍在被使用,但对于许多现代应用(如研究微生物群落)所需的数十亿个碱基进行测序是不切实际的。为此,我们需要转向“下一代”测序技术。

合成测序 (Illumina)

如今,下一代测序市场由 Illumina 主导。基因测序价格下跌的图表很大程度上是由这家公司推动的。就在去年,Illumina 宣布他们实现了 1000 美元的人类基因组。但从概念上讲,该过程与桑格测序并没有太大区别 - 他们仍然在观察逐个添加到模板链上的碱基的荧光标记。他们成功的关键是最大化一次可以读取的模板数量。

这段相对专业的视频更详细地解释了这个过程,但要点是,模板链被固定在固体表面上并就地扩增。换句话说,单个链的许多副本以类似于 PCR 的方法进行扩增,只是它们被固定在原位而不是漂浮在汤中。但是,在单个表面(称为流动池)上,可以有许多不同的 DNA 链。然后,当进行测序时,您正在观察来自物理表面上单个位置的荧光信号,而不是需要每个 DNA 链的单独试管。

最新一代的测序仪(称为“HiSeq”)一次可以测序 30 亿个 DNA 片段。这项技术的关键限制是每个单独序列的长度 - 它们只有 150 个碱基长。根据序列的使用方式,可能会导致问题,我将在下一篇文章中讨论。有时,如果序列较长,则较少的序列是一种更好的方法。

看看这段视频的前 ~3 分钟(其余部分是为下面解释的不同技术做的广告宣传)

离子激流测序

同样,离子激流测序背后的想法是相似的,因为碱基在添加到 DNA 模板时被读取。但是,离子激流与桑格的初始方法(每个碱基类型单独反应)更相似。然而,离子激流不是在凝胶上进行每次反应,而是测量少量液体中的电变化。每添加一个碱基,都会释放出氢离子,从而微妙地改变溶液的 pH 值。在可以读取这些微小变化的半导体芯片上进行反应,并记录已添加了碱基。系统每 15 分钟循环一次每个碱基,并记录哪些单独的孔发生了 pH 值变化。

从理论上讲,这项技术比 Illumina 测序更快,产生的序列读取长度稍长,并且不需要修饰的碱基(不需要荧光标记)。Life Technologies 正在推动离子激流,因为它有可能将测序技术掌握在更多的实验室和医院手中,因为分析仪比大型 Illumina 机器便宜得多,并且不需要大量的技术培训即可使用。但是,这些系统的输出仍然落后于 Illumina 的技术,并且每个碱基读取的成本仍然高于 Illumina。如果您只是想在偏远医院的临床样本中识别病毒,这不是问题,但该技术对于大型微生物群落样本来说是不切实际的,因为获得尽可能多的读取次数和尽可能低的价格是首要任务。

单分子实时 (SMRT) 测序

SMRT 技术由公司 PacBio 商业化,差异很大。顾名思义,这种测序方法检测单个 DNA 分子的序列(而不是依赖于扩增池)。在 SMRT 细胞中,不是固定 DNA 链并添加聚合酶,而是固定聚合酶,并将 DNA 链连接到聚合酶上。DNA 也可以环化,以便相同的片段将继续循环通过相同的酶,从而允许在反应进行时多次读取每个分子。碱基再次通过荧光读取,但 SMRT 细胞中涉及一些非常精巧的光学和物理知识,坦率地说,我不理解。

这项技术的优点是 PacBio 可以生成具有高精度的巨大序列读取结果。换句话说,虽然 Illumina 的合成测序生成的读取长度为 100-200 个碱基,而离子激流可以生成长达约 400 个碱基的读取长度,但 SMRT 测序可以生成平均长度为数千个碱基的读取长度。这会以每个碱基的个体读取次数较少为代价(如果您观看了上面的视频,这意味着错误检查更加困难),但拥有非常长的读取长度对于解析某些类型的基因组区域中的序列至关重要 - 更多详细信息将在下一篇文章中介绍。

其他技术

有很多聪明人在研究对 DNA 进行测序的方法,而且我确信还有其他有前途但我不太熟悉的技术。总的来说,对于大规模测序工作,任何给定技术最重要的特征是

  • 读取长度

  • 读取次数

  • 每个碱基读取的成本

在下一篇文章中,我将解释我们如何从单个 DNA 序列到理解单个生物体或整个群落的结构。

---------------------------

第一部分:DNA 测序简介

第二部分:下一代测序(当前

第三部分:从基因到基因组(即将推出!

© . All rights reserved.