2013年2月21日

ENCODE、苹果地图与功能：为什么定义至关重要

本文发表于《大众科学》的前博客网络，仅反映作者的观点，不一定代表《大众科学》的观点

还记得那项引发新闻的 ENCODE 研究及其“基因组的 80% 具有功能”的说法吗？还记得这些说法是如何成为一场公关灾难的起点，这场灾难（第一百次）宣布了“垃圾 DNA 的死亡”吗？甚至主流记者也相信了这种误导性的说法。我写了一篇关于 ENCODE 的文章，我在其中表达了惊讶，为什么会有人对垃圾 DNA 感到惊讶。

现在，丹·格劳尔和他在休斯顿大学的同事们发表了对 ENCODE 整套解释的细致批判。实际上，让我重新措辞。丹·格劳尔和他的同事们发表了一篇毁灭性的 ENCODE抨击，他们以秃鹫肢解角马尸体的坚韧和沉着来剖析 ENCODE 的说法。任何对 ENCODE 感兴趣的人都应该阅读这篇论文，值得庆幸的是它是免费的。

首先，让我评论一下这篇论文的风格，它与您常见的催眠技术文章略有不同。标题——论电视机的永恒性：根据 ENCODE 的免进化福音，人类基因组中的功能——清楚地表明作者毫不留情，这种印象也延续到文章的其余部分。论文的语言中充满了有针对性的讽刺、对苹果的挖苦（ENCODE 的结果与苹果地图进行了比较）、对罗伯特·鲁德鲁姆的颂歌，以及呼吁 ENCODE 科学家在一部名为《ENCODE 不协调》的电影中扮演主角。而我们才刚刚开始热身。作者不遗余力地告诉我们他们对 ENCODE 的看法，经常使用生动的语言。我只想说，如果一半的论文都写得如此有趣，那么科学文献将更容易为公众所理解。

关于支持科学新闻业

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们今天世界的发现和想法的有影响力的故事的未来。

现在转到内容。这篇文章的要旨是剖析 ENCODE 团队使用的极其宽松、误导和几乎无用的“功能”定义。论文首先指出了被选择的功能和仅仅是因果的功能之间的区别。前者的定义是进化性的（就赋予有用的生存优势而言），而后者则不是。作为一个有用的例子，人类心脏被选择的功能是泵血，而因果功能是额外的 300 克重量和产生扑通声的能力。

ENCODE 数据的问题在于它以因果功能为特征，而不是被选择的功能。因此，例如，ENCODE 将功能分配给任何显示可重复特征的 DNA 序列，例如与转录因子蛋白结合。正如本文所指出的，这个定义太宽松了，而且常常是有缺陷的。例如，DNA 序列可能与转录因子结合，但不会诱导转录。事实上，论文质疑为什么该研究单单挑出转录作为一种功能：“但是，DNA 聚合酶和 DNA 复制呢？为什么要大惊小怪地讨论基因组中 74.7% 被转录的部分，却忽略了 100% 的基因组参与了惊人的‘可重复的生化特征’——它复制了！”

事实上，ENCODE 研究的主要问题之一似乎是它强调转录作为“功能”的核心决定因素。这是有问题的，因为正如作者指出的那样，有很多序列被转录，但已知没有功能。但在我们继续讨论这个问题之前，值得强调作者称之为“ENCODE 不协调”的内容，以致敬罗伯特·鲁德鲁姆。“ENCODE 不协调”指出了研究中的一个重要假设；生物功能可以在没有选择的情况下维持，并且 ENCODE 识别的具有“因果功能”的序列不会积累有害突变。这种假设是没有根据的。

然后，论文重新审视了 ENCODE 用来定义“功能”的五个核心标准，并仔细地逐一剖析

1. “功能”即转录。

这可能是最令人恼火的问题。首先，似乎 ENCODE 使用了多能干细胞和癌细胞进行其核心研究。这些细胞的问题在于，它们比其他细胞表现出更高的转录水平，因此，从这些细胞的转录中推断出的功能一开始就会被夸大。但更重要的是，正如文章解释的那样，我们已经知道有三类序列在没有功能的情况下被转录；内含子、假基因和移动元件（“跳跃基因”）。假基因是一个特别有趣的例子，因为它们是已知因突变而失效的蛋白质编码基因的非活性拷贝。在过去几年中，随着实验和计算算法注释了越来越多的基因，假基因的数量甚至在蛋白质编码基因的数量下降的同时也在上升。我们也知道假基因可以在某些细胞中被转录甚至翻译，特别是 ENCODE 中使用的那种细胞，正如我们知道它们根据定义是非功能性的一样。类似的论点适用于内含子和移动元件，文章引用了一些论文，这些论文证明敲除这些基因不会损害功能。那么，为什么任何研究都要将这三类序列标记为功能性的，仅仅因为它们被转录？这似乎是 ENCODE 的一个核心缺陷。

作者提出的一个相关观点是统计学上的，他们说 ENCODE 项目为了灵敏度而牺牲了选择性。有一些简单的数值论证表明，为了灵敏度而牺牲选择性会产生大量的假阳性。事实上，这种批评触及了整个 ENCODE 研究的目的的核心

“在这一点上，我们必须问自己，ENCODE 的目的是什么：是以增加被错误识别为功能元件的数量为代价来识别每一个可能的功能元件？还是创建一个尽可能没有假阳性的功能元件列表。如果是前者，那么应该优先考虑灵敏度而不是选择性；如果是后者，那么应该优先考虑选择性而不是灵敏度。ENCODE 选择通过过度偏爱灵敏度而不是特异性来偏袒其结果。事实上，他们本可以节省数百万美元和数千小时的研究时间，完全忽略选择性，并先验地宣布基因组的 100% 具有功能。使用此程序不会遗漏一个功能元件。”

2. “功能”即组蛋白修饰

组蛋白是将 DNA 打包成染色质的蛋白质。然后组蛋白经历某些称为翻译后修饰的化学修饰，导致 DNA 解包并表达。ENCODE 使用 12 种组蛋白修饰的存在作为“功能”的证据。这篇论文引用了一项研究，该研究发现只有很小比例的可能组蛋白修饰与功能相关。我个人认为这是一个不断发展的研究领域，但我也有疑问，是否大多数组蛋白修饰都与功能相关联。

3. “功能”即邻近开放染色质区域

与组蛋白包装的 DNA 相比，开放染色质区域不受组蛋白的束缚。ENCODE 发现 80% 的转录位点位于开放染色质区域内。但随后他们似乎犯了经典的逻辑谬误，即推断出相反的结论，即大多数开放染色质区域都是功能性转录位点（再次出现转录与功能之间的关联）。正如作者指出的那样，只有 30% 左右的开放染色质位点甚至在转录位点的附近，因此将大多数开放染色质位点与转录联系起来似乎至少是一个很大的飞跃。

4. “功能”即转录因子结合。

对我来说，这是 ENCODE 研究中固有的另一个巨大假设，尤其是作为一个化学家。正如我在之前的文章中提到的，DNA 的某些区域可能仅仅通过一些微弱的化学相互作用而结合转录因子 (TF)。这种结合可能非常微弱，并且可能是一个快速的结合-解离事件。在我看来，在将任何类型的转录因子结合与功能联系起来时，ENCODE 团队似乎是从化学推断生物学。当前的分析表达了我的怀疑。正如作者所说，转录位点通常非常短，这意味着 TF 结合“相似物”可能在大型基因组中纯粹偶然地出现。与这些位点的任何结合都可能与真正的 TF 结合位点混淆。作者还引用了一项研究，在该研究中，在一个由 14 个位点组成的小样本中，只有 86% 的 TF 结合位点显示出与 TF 的实验性结合。推断到整个基因组，这可能意味着推测的 TF 结合位点中只有一小部分实际上会结合 TF。

5. “功能”即 DNA 甲基化。

在我看来，这是另一个从化学推断生物学的例子。DNA 甲基化是表观遗传学的主要机制之一。但就其本身而言，DNA 甲基化只是一种化学反应。ENCODE 团队建立在一个发现的基础上，该发现表明 CpG（胞嘧啶-鸟嘌呤）位点的基因表达与甲基化呈负相关。基于此，他们得出结论，基因组中 96% 的 CpG 位点都被甲基化，因此具有功能。但同样，在没有明确的实验验证的情况下，CpG 甲基化不能等同于基因表达。至少这表明需要进行后续工作，以确认这种关系。在此之前，CpG 甲基化意味着功能的假设将不得不仍然是一个假设。

那么我们如何看待这一切呢？很明显，ENCODE 的许多结论都是缺乏确凿证据的推断。但真正的症结在于“垃圾 DNA”的概念，这个概念似乎引发了相当极端的观点，从宣布垃圾 DNA 已经灭绝到宣布它是上帝。这两种观点都极大地歪曲了基因组的真实本质。前者的反应实际上为“设计师”创造论者铺平了道路，他们现在可以热情地提醒我们基因组中的每一个碱基对都是如何被精心设计的。与此同时，断言垃圾 DNA 必须是上帝等同于宣布每一段当前被指定为垃圾 DNA 的片段都必须永远是非功能性的。虽然前者的过错要糟糕得多，但重要的是要修正后一种信念。为了做到这一点，作者提醒我们悉尼·布伦纳对“垃圾 DNA”和“垃圾 DNA”所做的区分。有我们保留的垃圾和我们丢弃的垃圾，但有些垃圾将来可能会变得有用。与此同时，将来可能有用的垃圾并不是现在有用的垃圾。仅仅因为一些“垃圾 DNA”将来可能会被证明具有功能，并不意味着大多数垃圾 DNA 都是功能性的。事实上，正如我在我的文章中提到的，我们的基因组中存在大量非功能性 DNA 与标准的进化论证完全一致。

论文最后对“小”科学和“大”科学进行了有趣的讨论，这可能解释了 ENCODE 研究中的一些错误。作者指出，大科学通常致力于以易于访问的格式生成和传递数据。小科学在解释数据方面要胜任得多。这并不意味着从事大科学的科学家没有能力解释数据；这意味着大数据的本质（以及其中固有的时间和资源分配）可能使这些科学家很难启动能够完成仔细数据解释工作的有针对性的项目。论文暗示，也许 ENCODE 的错误在于试图同时充当数据的传递者和解释者。在作者深思熟虑的观点中，ENCODE“试图对 35 亿个碱基对的基因组进行一种文本诠释学，无视科学解释的规则，并采取了神学诠释学的立场，即文本中的每个字母都被先验地假定为具有意义”。换句话说，ENCODE 似乎屈服于一种不幸的普遍模式寻求案例，而人类常常会遭受这种案例的影响。

无论如何，整个事件都有宝贵的教训。它产生的铺天盖地的误导性宣传，甚至在《科学》和《自然》等期刊上，都是媒体炒作的教科书式研究。正如作者所说

“ENCODE 的结果被其主要作者之一预测为需要重写教科书（Pennisi 2012）。我们同意，许多关于营销、大众媒体炒作和公共关系的教科书可能确实需要重写。”

从科学的角度来看，这里最大的教训可能是，在受控实验室条件下解释大量嘈杂的生物数据时，始终牢记基本的进化原则。值得记住论文的最后一行

“进化保守性可能令人沮丧地沉默于它所强调的功能的本质，但只有不忽视进化原则，才能在理解 DNA 序列的功能意义方面取得进展……那些参与大科学的人最好记住令人沮丧的流行格言：‘如果好得令人难以置信，那就好得令人难以置信。’”

作者将 ENCODE 比作苹果地图，iPhone 中的方向查找应用程序，该应用程序在发布时臭名昭著地失败了。然而，苹果地图也提供了一个有用的隐喻。软件可以进化成有用的状态。希望我们对基因组的理解也会如此。