几年前,我们中的一人(赫伯特)在超市的过道里漫步时,惊叹于商店如何通过检查构成产品条形码的粗细线条的不同顺序来跟踪各种商品。他心想,为什么不能以类似的方式挖掘 DNA 短链中四个核酸的独特排序,以识别地球上无数的物种呢?
自从卡尔·林奈在 250 年前开始系统地对所有生物进行分类以来,生物学家们一直在观察各种特征——颜色、形状,甚至是行为——来识别动植物。在过去的几十年里,研究人员开始将 DNA 中的遗传信息应用于这项任务。但是,经典和现代遗传方法都需要大量的专业知识,并耗费大量的时间。仅使用 DNA 的一小部分——更像产品上的 12 位数字条形码——将大大减少时间和技能要求。
因此,我们为自己设定了一个挑战:找到一段 DNA——每个物种的同一基因的同一部分——能够可靠地区分一个动物物种与另一个物种。展望未来,我们预计很快就会出现一种手持式条形码阅读器,类似于 GPS 设备,能够从任何微小的组织碎片中“读取”这样的片段。繁忙港口的检查员、山间小径上的徒步旅行者或实验室里的科学家可以将含有 DNA 的样本——比如说,一小段胡须或昆虫的腿——插入设备中,设备将检测条形码片段中核酸的序列。该信息将立即中继到参考数据库,即 DNA 条形码的公共图书馆,数据库将回复标本的名称、照片和描述。任何人、在任何地方都可以识别物种,也可以了解某种生物是否属于以前从未被识别的物种。
支持科学新闻报道
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们今天世界的发现和思想的具有影响力的故事。
我们为什么需要条形码技术
形态学——动植物的形状和结构——使科学家能够命名约 170 万个物种,这是一项了不起的壮举,而且形态学仍然是林奈式分类诊断的基础。然而,仅依靠形态学来描述生命的diversity是有限制的。区分密切相关的物种的细微差别非常复杂,以至于大多数分类学家专注于一组密切相关的生物。因此,需要大量的分类学专家来识别来自单次生物diversity调查的标本。找到合适的专家并分发标本可能既耗时又昂贵。具有高分辨率图像的基于网络的数据库在一定程度上帮助了物流,但其他问题仍然存在。
例如,生物学家估计,约有 800 万个物种尚未被描述,并且随着形态学特征百科全书的扩展,简单地确定标本是否与已知物种相匹配将变得越来越困难。此外,卵和幼年形式(通常比成虫更丰富)可能没有明显的特征,必须饲养到成熟(如果可能的话)才能被识别。在某些物种中,只能识别一种性别。对于植物来说,标本可以很容易地从花朵中分类出来,而根和其他营养部分则无法区分。一种快速简便的标准化遗传信息使用方法可以弥合这些问题。
使其发挥作用
发现简化遗传信息使用方法是否合理的首要步骤是找到一小段 DNA,它可以实际提供识别结果——这段 DNA 要足够长,能够包含区分物种的信息,但又足够短,能够快速高效地使用。经过一些尝试和错误,我们最终确定了一个特定的基因片段作为动物物种的标准参考。(植物是另一回事。)该片段是线粒体(细胞的能量产生亚单位,从母亲那里继承)中基因的一部分。
我们选择的基因产生一种叫做细胞色素 c 氧化酶亚基 1 的酶,简称 CO1。CO1 条形码区域足够小,以至于使用当前技术可以在一次读取中解读其核酸碱基对(著名的双螺旋的“梯级”)的序列。虽然它只是每个细胞内 DNA 的一小部分,但它捕获了足够的变异来区分大多数物种。
例如,在灵长类动物中,每个细胞大约有 35 亿个碱基对。CO1 条形码只有 648 个碱基对长,但从人类、黑猩猩和其他大型猿类中提取的例子包含了足够的差异来区分这些群体。人类在条形码区域的一个或两个碱基对上彼此不同,但我们与我们最近的亲戚黑猩猩在大约 60 个位点上存在差异,与大猩猩在大约 70 个位点上存在差异。
线粒体 DNA 被证明特别适用,因为物种之间的序列差异远多于细胞核 DNA 中的序列差异。因此,线粒体 DNA 的短片段更有可能解析不同的物种。此外,线粒体 DNA 比核 DNA 更丰富,因此更容易回收,尤其是从小而部分降解的样本中回收。
为了证明这个小的 DNA 标签实际上可以识别一个物种,我们与我们的同事一起,测试了 CO1 条形码在来自陆地和海洋、从极地到热带的各种动物群体中的有效性。我们发现,CO1 条形码本身可以区分大约 98% 的通过先前分类学研究识别的物种。在其余部分中,它们将识别范围缩小到成对或小群密切相关的物种,通常是最近才分化的谱系或经常杂交的物种。
现在我们已经找到了条形码,下一步是从身份已经确定的标本中编译该片段的参考文库。通过将来自某种生物的条形码 DNA 与这些“凭证标本”进行比较,研究人员可以确定该生物是已知物种的成员还是新发现。创建文库的机制很简单:有人从组织样本中获取 DNA,确定条形码片段的碱基对序列,并将信息输入到条形码数据库中。标本的采集更为复杂。每个物种内的变异程度虽然很低,但仍然表明每个物种应至少分析 10 个个体,以记录这种diversity。即使世界各地的博物馆拥有超过 15 亿个标本,但大多数标本的制备并没有考虑到 DNA 回收,而且许多标本都太旧,无法产生完整的条形码序列。对于作为分类学名称原始参考文献的较旧的博物馆标本,扩增 100 到 200 个碱基对的迷你条形码(这种大小的条形码通常可以从旧的或损坏的 DNA 中回收)通常就足以证明与具有完整条形码的年轻标本属于同一物种。为了帮助构建条形码文库,许多机构的研究人员已经开始组装在保存 DNA 条件下存储的大型组织库。
跟踪如此多的标本及其序列本身就是一项工程挑战。但是,该过程已经随着一个名为生命条形码数据系统或 BOLD(在线地址为 www.barcodinglife.org)的公共数据库的建立而开始。BOLD 现在拥有来自动物界 46,000 多个物种的 460,000 多条记录,其中鸟类、鱼类、蝴蝶和蛾类的记录尤其密集。这些记录中的每一条都包含物种名称、条形码序列、采集地点、指向凭证标本的链接、照片和其他生物学数据。为了帮助协调构建如此全面的文库所涉及的巨大工作,生命条形码联盟 (CBOL) 于 2005 年成立;它包括来自 45 个国家的 150 个机构,这些机构支持将 DNA 条形码技术发展成为物种识别的全球标准。记录的实际组装将由国际生命条形码项目推动:这是一个 25 个国家的联盟,计划到 2014 年处理来自 500,000 个物种的 500 万个标本。
我们迄今为止学到了什么
正如 E. O. 威尔逊指出的那样,尽管经过 250 年的努力,我们甚至不知道地球上究竟有多少物种,即使是最近的数量级也不知道。DNA 条形码技术已经在帮助加速生物diversity的编目。迄今为止的主要发现之一是,物种比科学家意识到的要多——每个物种的专业化程度更高。这一启示来自于条形码技术提供的关于所谓隐生物种的新信息,这些生物物种看起来相似,但遗传差异表明它们是不同的物种。
DNA 条形码调查显示,在迄今为止研究的每个群体中,博物馆抽屉里都潜伏着隐生物种。例如,赫伯特与宾夕法尼亚大学的生物diversity生态学家丹尼尔·扬岑以及史密森学会的分类学家约翰·伯恩斯及其在哥斯达黎加的同事发现,曾经被认为是一个物种的弄蝶Astraptes fulgerator,实际上至少是 10 个不同的物种。由于成虫非常相似,科学家们没有意识到它们在基因上如此不同。同样,安大略省生物diversity研究所的亚历克斯·史密斯及其同事发现,三种形态可识别的寄生多种昆虫的蝇类实际上是 15 个物种的集合,每个谱系都专门寄生于少数寄主。
我们中的一人(斯托克尔)的工作表明,即使在经过非常深入研究的群体(北美鸟类)中,大约 4% 的已命名物种也包含可能属于不同物种的基因上不同的谱系。
最引人注目的早期发现之一是大多数动物物种内线粒体遗传diversity的惊人低水平。这一发现与群体遗传学理论的一个预测相矛盾,该理论预测较老或较大的种群应该表现出更多的diversity。变异水平低通常被认为表明最近的种群瓶颈。例如,科学家们认为,人类种群中线粒体变异的相对缺乏表明早期人类在 15 万年前在东非几乎灭绝。根据这一假设,所有现代人类都追溯到这个时期的单身女性,即所谓的线粒体夏娃。在整个动物界普遍存在类似贫乏的遗传diversity水平的发现,让人对夏娃假说产生怀疑,并提出了一个更大的未解决的科学问题:是什么力量限制了物种内的线粒体diversity?我们和其他人认为,序列分歧的持续低水平反映了频繁的“选择性清除”,在这种清除中,新的、有利的突变取代了祖先的变异,从而修剪了物种内的diversity。
我们迄今为止的研究表明,条形码技术可以加速生物diversity的调查。然而,事实仍然是,新物种的正式描述可能需要数年才能完成。因此,序列数据的生成远远领先于官方物种描述。我们认为条形码技术正在创建一张 DNA diversity地图,该地图将作为后续详细研究的框架。正如航空摄影的速度和经济性使其取代地面调查成为土地分析的第一线一样,DNA 条形码技术可以成为物种发现中快速、相对廉价的第一步。“地面实况调查”将需要更多时间。但是,将这些方法联系起来将产生对地球上生命的历史和现状的综合看法,并有助于引导生命的全部辉煌进入未来的世纪。
有关此故事的图表,请单击下面的图像放大
注意:本文最初以“生命条形码”为标题发表。