2013年3月27日

合成分类：虚构动物的演变

本文发表于《大众科学》的前博客网络，反映作者的观点，不一定代表《大众科学》的观点

达尔文在“我想”标题下绘制的进化树草图是他自然选择进化论的有力且持久的形象。系统发育树——显示生物体之间关系及其从共同祖先进化而来的分支图——现在是生物学教科书中的标准图像，用于将生物体置于生物空间和时间中。我经常在我的研究中绘制系统发育树，比较不同细菌菌株的DNA序列，以更好地理解物种之间的关系。像大多数生物学家一样，我不是一个高级用户或分类学家，所以我通常将序列比较和树构建的不同方法作为下拉菜单中的选项进行交互，使用程序提供的统计测量来比较不同的树。由于并非每个进化转变都有化石标本，因此必须使用统计数据而不是与“真实”树进行比较来评估使用不同算法方法生成的树。但是，如果可以构建一个虚构生物的合成树，每个分支之间都有已知的进化关系，以便测试您的算法，该怎么办？认识一下卡米纳库勒斯。

为了评估和教授构建系统发育树的不同方法，分类学家约瑟夫·卡明在 20 世纪 60 年代初设计了一组可爱的虚构动物。这些动物被他的研究生们戏称为“卡米纳库勒斯”，具有预定义的进化历史，反映在卡米纳库勒斯表型的形状和模式中。这 77 个卡米纳库勒斯包括 29 个现存物种和 48 个“化石”物种，可以完整地重建进化树。学生可以在这个合成数据集上测试他们新获得的分类技能，将他们的结果与答案键的“真实”进化历史进行比较。除了作为教学工具的用途之外，卡米纳库勒斯集合还允许开发和测试新的分类方案，特别是新的数值方法和算法。

在 1966 年《大众科学》的一篇文章（PDF）中，昆虫学家罗伯特·索卡尔讨论了他关于可以对生物体进行排序和分类的计算系统的工作，以及他如何使用卡米纳库勒斯来帮助开发新的数值方法。对于索卡尔来说，传统的分类方法相对来说更“主观”，需要分类人员识别表型特征，并通过手工组织进化树，“使分类学更像是一门艺术而不是一门科学”。 20 世纪 60 年代计算机的出现提供了“客观和明确分类的许多可能性”。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您正在帮助确保关于塑造我们今天世界的发现和想法的有影响力的故事的未来。

今天，可以使用对齐和聚类的算法方法比较基因序列中保存的“数字”数据，但在 1966 年，没有任何基因序列可用。相反，索卡尔使用数值和自动化方法，使用数字程序比较生物体的“模拟”物理特征。索卡尔开发的一种将可变表型信息转换为数值数据的自动化图像处理方法是简单地用随机打孔的穿孔卡覆盖卡米纳库勒斯线图。然后，每个孔将根据该孔下是否有绘制的线条而分配“1”或“0”。对不同卡米纳库勒斯进行低分辨率数字化的比较能够生成与原始系统发育相似的树。

这些穿孔卡图像是早期计算生物学的迷人遗物，它预测了一个与我们今天截然不同的未来，一个基于表型特征自动化的未来，而不是基因序列。事实上，索卡尔在他的《大众科学》文章中写道：

在分类学中可能最有用的设备是光学扫描仪，它可以数字化图形、照片、显微镜制剂和生化分析的结果。从这些自动传感器涌来的大量信息将需要基于计算机的处理和分类，因为人类无法通过传统方式消化这些数据。

今天，当我们谈论大量数字数据时，我们通常指的是来自测序中心的 PB 级基因组数据，这些数据使我们分析和解释这些信息的计算能力不堪重负。然而，对于索卡尔来说，“基因或其影响是否应构成分类的基础，这一点绝非确定”，即使在今天，分类学家在对生物体进行分类时，也并不仅仅只看基因序列。不同类型的表型数据可能看起来像是已经泛滥的桶中的又一滴，但生物学不仅仅是 DNA，分类学的历史告诉我们，我们需要比序列多得多的东西来组织和理解生命。