希尔伯特曲线揭示人类与黑猩猩基因组的相似性

编者按:以下是客座文章,作者是 Martin Krzywinski,他是一位投稿艺术家,为《大众科学》杂志九月刊设计了“图形科学”插图。

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点


编者按:以下是客座文章,作者是 Martin Krzywinski,他是一位投稿艺术家,为《大众科学》杂志九月刊设计了“图形科学”插图。

为了《大众科学》杂志2014年9月刊中的一幅图,编辑们向我提出了视觉上支持以下论断的挑战:从基因组学的角度来看,我们更像黑猩猩和倭黑猩猩,而不是大猩猩。

在这里,我们将探讨如何以可视方式展示这些信息,我将带您了解最终产品的思考过程。但首先,我们需要澄清一些关于基因组是什么以及基因组不是什么的问题。基因组不是蓝图。事实上,它看起来一点也不像蓝图(图 1)。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的有影响力的故事的未来。


图 1 | 1936 年 Joy Oil 加油站蓝图(上);人类 1 号染色体的序列(下)。

蓝图向您展示“什么”,但基因组不编码“什么”。相反,基因组可以被认为是编码一组工具(蛋白质)。它没有告诉您每个工具的功能是什么,工具作用于什么,工具如何协同作用,或者工具用于构建什么。

基因组分析和可视化困难的原因不仅在于其各个部分之间的深刻相互作用——工具的使用方式、时间和原因——还在于其物理结构:大小以及功能区域的密度和分布。(我们的基因组被打包成 24 条染色体,总共约 30 亿个碱基)。

首先要注意的是,工具(蛋白质)不一定由基因组的相邻区域编码。例如,将酪氨酸转化为肾上腺素的四种蛋白质的代码位于 3、9、11 和 17 号染色体上。当我们以自然顺序和方向绘制染色体时,此信息会被隐藏。

其次,在 30 亿个碱基中,并非所有碱基都有明确的工作。基因——仅占基因组的约 33%——指的是基因组中编码蛋白质的片段。但严格来说,基因组中的术语“编码区”仅对应于那些较大基因内捆绑的特定断奏式蛋白质编码序列。这些片段是外显子(约占完整基因组的 2.5%,图 2)。基因组的其余部分(包括基因区域内外的片段)没有明显的功能——并被轻蔑地称为“垃圾 DNA”。然而,垃圾 DNA 并非全是垃圾,其作用备受争议。

图 2 | 只有 2.5%(7500 万个碱基)的人类基因组被翻译成蛋白质。这些区域被包装在基因中,基因共同跨越约 1/3 的基因组。基因组的线性表示使得显示细节变得困难。即使是最大的基因 Titin 也无法在此尺度下辨别出来。其外显子约为外显子线长度的 0.1%,即使放大 100 倍也几乎看不见。

用线条填充空间
人类基因组的基本尺度可以线性显示,如图 2 所示。然而,由于基因组很大,并非所有基因组都同等重要,因此需要密集的视觉表示来显示完整基因组背景下的细节。

对于杂志大小页面的静态图像,这基本上是不可能的。正如我们在图 3 中看到的那样,如果我们用 1000 x 1000 像素的正方形表示基因组,那么只有 160 x 160 像素的正方形才能容纳关键信息(与外显子相关的内容)。

图 3 | 人类基因组中外显子和基因的相对大小,以面积表示。如果基因组是 1000 x 1000 像素的图像,则表示外显子中碱基的正方形仅为 160 x 160 像素。

尽管如此,正方形仍然是理想的,因为它比线条或一系列线条具有更多的像素(在印刷品中为点),可用于数据。问题是如何将基因组(一维对象)打包到正方形(二维对象)中?答案是空间填充曲线,例如希尔伯特曲线。

希尔伯特曲线很容易构造。取一个正方形,将其分成四个象限。用一条线连接象限中心的三个对,得到马蹄形。这是 1 阶希尔伯特曲线。其中一对未连接(哪一对都无关紧要),以便曲线具有起点和终点。更高阶的曲线是通过重复将每个象限划分为子象限来构造的,如图 4 所示

图 4 | 1 阶希尔伯特曲线,开口在左侧(反向 C),以便曲线从左上角开始,首先向右移动。更高阶的曲线是通过递归地将每个象限划分为象限来构造的。在每种情况下,曲线的起点都在左上角,终点都在左下角。曲线的长度在每个阶数上大约翻倍。7 阶曲线的长度大约是 1 阶曲线的 128 倍。

空间填充曲线提供了一种将一维对象(基因组)打包到二维空间(页面或屏幕)上的方法,这样基因组中的相邻区域在二维表示中仍然保持接近。

创建图形
对于《大众科学》中比较人类基因组与其他灵长类动物基因组的图形,印刷布局中的空间不大——大约 5 x 5 英寸。在如此小的区域内工作,快速说明概念非常重要,理想情况下第一眼就能看懂,然后提供另一个更微妙和丰富的信息层。

我制作了很多 Circos 图——一种以圆形布局可视化数据的方法——通常适用于显示基因组之间的相似性。但这里的想法是显示差异,因此需要不同的形式。

我认为希尔伯特曲线是一个很好的方法。它有点像精品可视化,需要一些时间来适应。如果您是第一次看它,多层正方形图案可能会有点分散注意力,但它是将信息连贯地压缩到小空间中的强大方法。您实际上不需要了解曲线的复杂性即可看到图案差异。

为了将大猩猩、倭黑猩猩、黑猩猩和丹尼索瓦人的基因组与人类基因组进行比较,我使用了 5 阶希尔伯特曲线,在易读性和细节之间取得了平衡。图 5 是完整人类基因组在 5 阶曲线上的染色体图。

图 5 | 人类基因组的染色体映射在 5 阶希尔伯特曲线上。

对于最终图形,我只关心灵长类动物基因组与人类基因组中的基因区域有何不同。在图 6 所示的希尔伯特曲线上,您可以看到人类基因组已测序部分(彩色区域)的哪些部分是基因(黑色矩形)。

图 6 | 基因区域(黑色矩形)叠加在人类基因组的已测序区域(彩色线条)上。

由于我们只关心基因区域,因此可以省略上述黑色矩形之外的区域。图 7 仅显示基因组的基因区域。黑色矩形现在代表外显子(我之前写到的基因组的关键 2.5%)。请注意,此处的颜色边界与图 5 和图 6 中的颜色边界不同,因为这种缩小会导致移除各种染色体的不同长度。

图 7 | 人类基因组基因区域中外显子的密度。该曲线表示所有基因区域(图 6 中的黑色区域),约占基因组的 1/3,按其染色体着色。密度图编码了该位置的碱基中属于外显子的比例。总共约 2.5% 的基因组(约 7.5% 的基因)在外显子中。

图 7 正是最终杂志图形的设置方式,只不过显示的是与外显子中碱基的比例相反,而是与另一个基因组(例如黑猩猩)具有比对(序列相似性区域)的碱基比例。由于空间限制,我决定将希尔伯特曲线上的碱基浓缩成 2,048 个箱,每个箱用一个圆圈表示,而不是上面所示类型的密度图。这将使图形看起来更风格化和几何化。当密度图使用大量色调时,图形可能会显得模糊,如果没有强烈的对比区域,则无法牢固地固定在页面上。

沿途的步骤
我之前曾为多个物种开发过全基因组面板的图形,例如 大英图书馆美丽科学展览,但那些突出了物种之间的相似性,而不是差异。我采取的任何方法都必须产生一个图形,其中差异在视觉上很明显。

我首先研究了人类基因组和灵长类动物基因组之间的比对在位置方面是如何对应的。我们知道,当我们观察进化上离我们更远的物种时,染色体之间的片段会混合(或洗牌)——我想,这种洗牌可能是直观地比较基因组的好方法。但由此产生的图形太复杂了。

对于我们的目的,还有一个问题是染色体之间基因的洗牌有多重要,只要离散序列保持完整即可。例如,如果您想比较两个图书馆,您不一定关心它们将书籍上架的顺序。如果两个图书馆都有完全相同的书籍,那么您可能会说它们是相同的。其余的是组织。(在基因组中,这种组织中的一部分与功能有关,但这太详细了)。

为了确定图书馆之间的差异,您不妨改为询问一个图书馆缺少哪些书而另一个图书馆有。这让我更接近希尔伯特曲线的有用形式。我转而只查看未比对的碱基(人类基因组中其他基因组中没有表示的碱基序列),如图 8 所示。

图 8 | 使用未比对碱基的比例比较差异。较大的红点表示所列物种与人类基因组之间较大的百分比差异。

我通过使用不同的颜色并调整比例来强调差异,从而进一步完善了事物。我们越来越接近候选图形,如图 9 所示。

图 9 | 使用 5 种颜色方案比较未比对碱基的差异。

在这一点上,我们去除了小鼠,转而添加了丹尼索瓦人基因组,这似乎更合适(图 10)。

图 10 | 使用 5 种颜色方案比较未比对碱基的差异。小鼠被丹尼索瓦人取代,后者与文章更相关。

最终,我们决定在最终版本中使用黄-红调色板,而不是上面显示的 Brewer 光谱调色板。使用这种方法,基因组之间的差异更加直观。

我对结果感到满意。它干净、对称、朴素,我认为相当好地体现了基因组之间差异的程度。是的,还有大量的细节未被提及,但我们没有空间了。

我满意的原因至少有一部分是我没有最终制作圆形表示。这是一个非常需要的从圆形中解脱出来的机会——直到我更仔细地观察最终的图形,才意识到 8,188 个小圆圈正盯着我看。

有关基于希尔伯特曲线的艺术(认识希尔伯顿人!)以及我网站上的这个项目,请点击此处

© . All rights reserved.