本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
.png?w=590)
也许您在上周的《纽约时报》头版看到了这张图,它引出了艾米·哈蒙的文章,文章讲述了来自各个实验室的科学家联合起来对抗寨卡病毒。研究人员的共同目标是:对病毒的蚊子载体——埃及伊蚊的基因组进行测序,希望更全面地了解这种昆虫的基因构成,从而找到阻止其传播导致人类疾病的病毒的方法。(上一次主要的——尽管不完整的——测序工作是2007年发表的)。
《纽约时报》的标题(如在线显示)指出,您看到的是“最近测序的埃及伊蚊基因组的可视化图。3,752 条彩色线条中的每一条都是其三个染色体的片段……”
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
但这意味著什么?您如何阅读该图表,它是如何构建的?为了找到答案,我联系了图表的作者、加州大学旧金山分校安迪诺实验室的博士后研究员马克·库尼托米。
该图表的基因组序列数据由安迪诺实验室与太平洋生物科学公司合作生成。正如哈蒙的文章中指出的那样,目前也在追求其他测序方法,以进一步完善地图。(要了解更多关于各种基因组读取技术的信息,请参阅乔治·丘奇在 2006 年 1 月刊的《大众科学》中撰写的“所有人的基因组”。要了解更多关于可视化基因组相关的挑战,请参阅马丁·克日温斯基撰写的“希尔伯特曲线揭示的人类和黑猩猩基因组之间的相似性”)。
.png?w=510)
图表作者:马克·库尼托米
库尼托米图表中的每条彩色线条代表一个化学碱基对序列——蚊子遗传密码的 A、T、C 和 G——研究人员对其准确性非常有信心。这些精确已知的化学碱基对序列被称为重叠群。下面的细节显示了其中六个。

完整地图中有 3,752 个重叠群。2007 年的草图包含 36,206 个重叠群。持续测序工作的最终目标是最终只得到三条线;每条染色体一条连续的碱基对序列。
每条彩色线条的长度代表一个重叠群中碱基对的数量,范围从大约 35,000 个(图表上最小可见的线)到 7,901,702 个。埃及伊蚊细胞系的完整数据集由约 17 亿个碱基对组成,其中包括基因编码区(基因)和基因组的非编码区。
每组彩色线条代表研究人员非常确定属于一起的重叠群,但在连接点(下面用黑色圈出)可能存在一些间隙、重叠、冲突和/或其他不确定性。

每个组在完整图像网格中的位置大致基于大小。线条形状(曲线、波浪线和环线)和方向是任意的。
库尼托米使用生物信息学可视化工具 Bandage 创建了该图表,该工具由瑞安·威克(目前是墨尔本大学凯瑟琳·霍尔特研究小组的研究助理)开发。一篇描述论文去年在《生物信息学》杂志上发表:该软件可在线获取,或者您可以克隆 GitHub 上的源代码。
底线是什么?研究人员在拼合埃及伊蚊的基因组方面取得了重大进展,但该图谱仍然非常分散。像这样的可视化图表使研究人员能够放大并确定哪些区域仍需要更多工作,并允许像我这样的非专业人士跟踪他们的进展。