2015 年 2 月 28 日

如何研究复杂的微生物世界 – 第 3 部分：从基因到基因组

在本系列的第一部分中，我讨论了什么是 DNA 测序，以及为什么它是一个重要的工具。在第二部分中，我解释了科学家目前正在使用的一些技术，以实际“读取”来自生物体的 DNA 序列的字母。

本文发表于《大众科学》的前博客网络，反映了作者的观点，不一定反映《大众科学》的观点

在本系列的第一部分中，我讨论了什么是 DNA 测序，以及为什么它是一个重要的工具。在第二部分中，我解释了科学家目前正在使用的一些技术，以实际“读取”来自生物体的 DNA 序列的字母。在最后一部分中，我将解释我们如何从测序仪的读数，到理解被测序样本中生物体的一些信息。

组装基因组

生物体的基因组包含生物体生存和复制的所有*指令，以 DNA（或在某些病毒的情况下为 RNA）的语言编写。最早完成全基因组测序的生物体是噬菌体——感染细菌的病毒——在 1970 年代。这些测序项目非常费力，基因组只有几千个碱基对长。在 1990 年代，第一个细菌基因组（近 200 万个碱基对）和酵母酿酒酵母（1250 万个碱基对）被测序。第一个人类基因组于 2004 年完成，高达 33 亿个碱基对。

关于支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保未来出现更多关于塑造我们今天世界的发现和想法的有影响力的故事。

我将复杂社群中微生物基因组的测序描述为走进图书馆，从书架上阅读书籍。但问题是——阅读书籍的类比在这里有点失效，因为你不能只是从头开始阅读每个字母。更好的类比是将一本书扔进碎木机，然后尝试从碎片中重新组装它。更准确地说，你只有每个碎片上的文本，你甚至没有边缘的形状，所以你无法知道什么与什么匹配。实际上，这个项目是不可能的。看看最后一句话，想象一下它被碎片化成

不可能

事实上

将会是

这个项目

这可能是“不可能这个项目将会是事实上”，或者“事实上不可能将会是这个项目”。相反，让我们把同一句话扔进碎木机几次——每次它都会随机碎片化，所以第二次我们可能会得到

是不可能

在

项目将会

事实上这个

现在，通过对齐重叠的片段，我们有足够的信息来重建整个句子

现在将它乘以几百万次。希望这个类比能很快地说明几件事——序列越长（从碎木机中出来的碎片越大），这将越容易，并且你需要平均读取每个字母不止一次，在某些情况下要多次。

16S 核糖体谱分析

现代测序方法一次可以生成数百万甚至数十亿个短序列“读数”，但正如我上面所说，每个碱基你需要不止一个读数，即使是单个基因组也通常有数百万个碱基。如果你想读取复杂社群中每个微生物成员的整个基因组，你将需要多次测序运行。虽然自人类基因组计划时代以来价格已经大幅下降，但仍然远非廉价。

但是如果你想知道图书馆中的信息，你不一定需要阅读每本书的每一页——仅仅获得书名列表可能就足够了。当然，有些书可能很晦涩，所以仅仅知道书名并不能告诉你一切，但是如果你有兴趣比较例如纽约公共图书馆与马萨诸塞州的图书馆的信息多样性，书名列表就足够了。这就是 16S 核糖体谱分析背后的想法——本质上是浏览从你的碎木机出来的碎片堆，只看书脊。

就像每本书都有书名一样，每个细菌都有一种基因，用于编码 16S 核糖体的 RNA 成分——一种蛋白质合成所必需的分子。同样有用的是，这种基因在细菌进化过程中变化不大，因此两种微生物的 16S 基因之间的差异程度很好地代表了它们亲缘关系的远近。最重要的是：测序该基因的几百个碱基足以提取必要的信息。

这是大量微生物生态学论文完成的方式——如果你看到一个饼图，不同的颜色代表不同的微生物，它很可能是用 16S 核糖体谱分析完成的。

: 人类皮肤的 16S 谱 [图片来自维基共享资源]

宏基因组学

有时，我们想要更多信息。扩展我们的比喻，假设我们再次比较纽约和马萨诸塞州的公共图书馆，但我们不仅仅关注书名的多样性，我们还想更多地了解内容。例如，我们想知道书架上书籍的平均复杂程度。与其浏览我们的碎木机碎片堆来逐字逐句地组装每本书，不如尝试构建完整的句子并分析这些句子。不必知道每个句子来自哪本书，我们只需要知道，平均而言，该图书馆中句子的阅读水平是多少。

宏基因组学是组装完整基因组和 16S 谱分析之间的折衷方案。它比 16S 需要更多的“测序深度”——更多扔进碎木机的每本书的副本——但远不如尝试组装完整基因组那么多。样本的宏基因组是对环境中存在的所有基因的表示，而不必知道哪些基因存在于哪些微生物中。16S 基因也将在宏基因组测序中被揭示，因此在这一点上，16S 谱分析的唯一优势是成本。

RNA 测序

也许知道纽约与马萨诸塞州图书馆书籍的复杂程度不是我们想要的，我们想知道读者群的复杂程度。也许纽约图书馆有很多莎士比亚和鲁米，但去图书馆的人只读 E.L. 詹姆斯。我们真正想做的是分析哪些书正在被从书架上取走。

这就是 RNA-Seq 背后的想法，它着眼于——你猜对了！——RNA 的相对丰度。当细胞中的基因被打开时，它们会在 RNA 分子中复制 DNA 基因，并且细胞中特定 RNA 序列的数量是衡量基因开启程度的指标。这就像我们比喻的图书馆的读者不允许借阅书籍，他们只允许复印他们想读的书籍的页面。

哪些基因被开启或关闭比细胞拥有哪些基因更能控制细胞的行为（毕竟，你的心肌细胞和皮肤细胞拥有相同的基因，但行为却截然不同），但是测序DNA并不能告诉我们哪些基因实际上正在表达，就像知道图书馆中的书籍并不能告诉你读者的阅读行为一样。我在本系列第二部分中描述的相同技术可以应用于从细胞中提取的 RNA。

结论

我认识到前面的帖子缺乏任何具体的着力点，但请相信我，这将会有回报。下个月，我将开始谈论一些使用这些方法的研究，希望这些解释将成为经常返回的宝贵参考。

-----------------------------

*这并非完全正确——还有其他信息（参见“表观遗传学”）可能会产生重要后果——但基本上是正确的。

第一部分：DNA 测序简介

第二部分：下一代测序

第三部分：从基因到基因组（当前）