大众科学信息图的演变:家庭灰尘中的秘密生活

设计师马丁·克日温斯基和芭芭拉·珍妮·汉尼卡特带您一窥幕后,并解释了他们如何基于来自灰尘的细菌基因组信息开发数据可视化。

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点


编者注:以下是马丁·克日温斯基和芭芭拉·珍妮·汉尼卡特的客座文章,他们是为《大众科学》杂志2015年12月号设计的图形科学插图的特约艺术家。

事实证明,你家里的灰尘携带着关于居住者的蛛丝马迹——男性和女性的相对数量,以及是否有狗和猫。这是一篇题为“家庭灰尘中微观生物的生态学”的论文的结论之一,该论文发表在《英国皇家学会学报B》上。我们在2015年12月的图形科学页面中的目标是以视觉方式捕捉这一发现。

家庭灰尘中到底有什么?花粉、毛发、纤维、土壤、皮肤细胞甚至陨石颗粒。但也有大量的细菌:以及各种各样的细菌,由房屋的居住者脱落——包括宠物,它们贡献了自己独特的细菌群。如果你被狗或猫舔过——两种非常不同的体验——这可能不会让你感到惊讶。宠物的不太受欢迎的部分,至少对人类而言(提示:另一端),也贡献了它们自己的细菌。现在,得益于非常快速且非常廉价的基因组测序,可以研究灰尘样本并收集其居民的普查数据。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的有影响力的故事的未来。


还发现男性和女性人类居住者的比例对细菌菌群有影响,尽管程度小于宠物。这种差异受到皮肤生物学差异以及——论文中幽默地指出——体型和卫生习惯的影响。我们将其留给您来猜测哪个性别更大和/或更干净!

方向和设计
该页面设计的早期想法是一个个性化和互动的“选择你自己的灰尘冒险”决策树,它将引导读者通过某种图形(图 1)发现他们在家中灰尘中可能发现的细菌类型。

图 1. 2015 年 12 月图形科学页面的最初想法:个性化和交互式决策图表,引导读者到一个面板,该面板将以某种方式代表他们家中灰尘中细菌的组成。

要展示什么?
我们必须深入研究数据,以确定到底要在图 1 的方形面板中显示什么。我们希望识别出有意义且可以在相对较小的空间中轻松表示的模式。在设计草图的早期阶段,尽可能多地拥有(和放弃)想法非常重要。

数据包括约 90 个细菌属的相对丰度(每个细菌属在细菌种群中所占的比例)——从不动杆菌属(螺杆菌门)到密螺旋体属(变形菌门),取自约 1,400 个家庭。对于每个家庭,我们都知道男性和女性居住者的数量以及是否有狗或猫。没有收集宠物的数量或性别,也没有收集是否有婴儿在家。  

我们最初受到研究中的一个图(图 2)的指导,该图显示了在狗或猫存在的情况下发现丰度明显更高的某些细菌的箱线图。

图 2. 室内细菌比例的差异。纵轴是平方根转换的。未显示箱线图异常值。(改编自 “家庭灰尘中微观生物的生态学”,作者 Albert Barberán,发表于《英国皇家学会学报 B》,2015 年 8 月 26 日。)

箱线图可以很好地紧凑地表示有关样本的信息——它们显示中位数、四分位数间距(IQR,第 25% 和第 75% 百分位数之间的值),并且取决于箱线图的类型,到异常值的距离。例如,在 Tukey 箱线图中,须线长度延伸到异常值,最远可达第 1 个或第 3 个四分位数以外的 1.5 IQR。(您可以使用这个方便的在线工具制作自己的箱线图)。在图 3 中,我们显示了更大一组细菌的箱线图,其中包含异常值。

图 3. 所有属的箱线图,对于有狗(与无狗)和猫(与无猫)的家庭,丰度差异的P < 0.1。对于每个属,白色箱线图显示来自没有宠物的家庭的样本,以及那些按P 值着色的来自有宠物(狗或猫)的家庭的样本。顶行中的属按总丰度(递减)排序,底行中的属按P 值(递增)排序。

能够生成此图并重现论文的结果是验证我们的分析方法的重要的第一步。在图 4 中,我们以直方图(条形图)的形式显示了细菌子集的丰度分布。

图 4. 宠物存在对家庭灰尘中九个细菌属丰度分布的影响。分布的平均值和中位数显示为实线和虚线垂直线。每个宠物条件下平均丰度绝对值增加最大的三个用红色箭头显示。

图 3 和图 4 揭示了有关数据的重要细节。首先,属的丰度差异很大,并且在许多家庭中为零,我们从所有箱线图须线都以零结尾这一事实推断出来。其次,跨家庭的丰度分布是右偏的(它们在较高丰度处有一个长尾)。我们预计平均值和中位数会有很大差异,事实也确实如此:丰度最低的细菌冰杆菌属的平均相对丰度为 0.8x10–6,而丰度最高的细菌棒状杆菌属的平均相对丰度为 5x10–2,大约大 6,000 倍。即使丰度差异很小,大样本量(例如,有狗和没有狗的家庭分别为 796 个和 569 个)也提供了足够的统计功效来为这些差异分配统计显着性。

最初的决策树设计理念意味着我们必须创建一个列联表,其中显示我们变量的所有可能组合:男性、女性、猫和狗。例如,我们需要区分居住者主要是女性且有狗的家庭与居住者主要是男性且有猫的家庭,因此我们开始探索替代显示方法,以便我们能够传达所有这些信息。

初始设计
虽然箱线图和直方图对于评估总体数据集很有用,但从图 3 和图 4 中可以清楚地看出,它们对于杂志来说并不理想。很难一目了然地看到细菌之间的差异,并且图表无法缩小到适合一页并且仍然清晰可辨。

我们的早期设计尝试如图 5 所示。我们想要

  • 以可以在一系列可以交叉比较的小图表中表示的方式编码数据;

  • 使读者能够轻松识别变量及其引起的细菌变化;

  • 通过创建一个视觉上有趣的页面来鼓励读者参与;以及

  • 提供对当前主题——细菌群落——的微妙暗示,而不会落入培养皿或 DNA 螺旋等字面符号的陷阱(尽管我们尝试过)!

图 5. 草图阶段的各种编码和设计方法。虽然使用细菌形状(大小或颜色)来编码丰度似乎是一个有希望的想法,但它们没有提供足够的视觉权重。样板文本用于了解页面布局。

图 6. 早期设计元素,包括绝对丰度直方图,其中包含每个条件的详细变化,以及最大丰度变化的数据小插图。

我们拥有的细菌数据比我们有空间展示的要多得多,因此我们考虑展示更广泛数据集的概述,仅详细介绍一个子集(图 6,右上角)。这看起来很有希望,但与我们想要创建的列联表的想法不太吻合。

我们确实决定使用细菌的实际形状(图 7)来赋予每个属独特的视觉个性,作为其标签旁边的图标会很有趣——我们喜欢螺旋杆菌属

图 7. 细菌形状赋予每个属个性。螺旋杆菌属需要理发。

数据编码
将丰度差异编码为圆形似乎符合我们的需求;圆形允许紧凑的表示,可以轻松识别跨条件的更改,并提供与主题的微妙联系——想想细菌菌落。

细菌之间绝对丰度的变化差异很大,几乎不可能直接比较它们。相反,我们决定显示相对丰度的变化,即平均最终丰度除以平均基线丰度的比率。鉴于分布是偏斜的(图 4),传统上将使用中位数而不是平均值,但在某些情况下,中位数为零,这将阻止我们计算比率。我们使用平均比率的 log2 来表示差异——并在图例键中使用了加倍的概念。这似乎比线性增加或其他一些对数底(例如 log10)更直观,因为种群加倍(或减半——想想衰变物质的半衰期)的概念很常见。

使用圆形(因此面积)来编码数量是棘手的。大多数人在评估面积时倾向于低估数量,因为他们使用长度作为指导他们判断的代理,而没有考虑到面积是长度的平方。有一些巧妙的技术可以缩放圆的大小以匹配我们感知面积的方式。(参见 James Flanney 于 1971 年撰写的“在定量数据表示中一些常见分级点符号的相对有效性”[PDF];以及 Susumu Tanimura 等人于 2006 年撰写的“R 中的比例符号映射”)。我们没有将半径缩放为 x0.5,其中 x 是要编码的数量,而是使用了 x0.57(Flanney 建议),这巧妙地增加了面积。最后,我们选择了圆的最大尺寸,以确保圆在最终图形中不会重叠。

由于每个值都描述了相对于细菌丰度基线水平的增加或减少,因此为每个意外事件选择基线是一项判断练习。在性别比较中,女性较多的家庭与男性较多的家庭进行比较,而不是与性别分布均衡的家庭进行比较。做出此决定的动机是,基于性别的差异非常小,并且包括性别均衡的家庭会进一步稀释这些差异。

筛选数据
一旦我们确定了编码方案,我们就为所有细菌的每个条件生成了丰度变化概况(图 8)。

图 8. 所有细菌和所有家庭类别比较的相对差异。

从此表中,我们选择了具有有趣模式的细菌——那些在性别和宠物条件下都具有统计学意义且视觉上独特的细菌。例如,巨球形菌属贝壳状菌属非常相似(图 9),因此同时显示两者会使图形不那么有趣。

图 9. 我们选择了具有不同视觉特征的细菌。

我们选择了足够的细菌来填充页面上的空间——结果证明我们有 14 个的空间。在这个阶段,我们还探索了呈现决策树问题的其他方法(图 10)。

图 10. 在紧密草图阶段改进设计。

最终确定图形
将比率编码为圆形似乎是一个不错的方向,但我们继续探索直方图和细菌形状,以让自己相信这些不是富有成效的方向。

我们一致认为,在树分支点嵌入问题的决策树是读者以交互方式探索数据集的最佳方式。在最终的设计阶段,探索了对问题的放置和顺序以及图例位置的微小调整(图 11)。我们选择橙红色表示增加,其想法是这种颜色暗示条件正在加剧(细菌率更高),而蓝灰色表示减少。

图 11. 最终设计的变体。

我们最初计划显示每个细菌的平均丰度作为直方图,如在一些早期草图中看到的那样,但最终决定反对。该页面的设计旨在减少定量,更像是一个游戏,使直方图成为不必要的图形细节。相反,我们只是按丰度对细菌进行排序——丰度较高的细菌在顶部,丰度较低的细菌在底部。我们还尝试使用文本和图标的组合来帮助解释如何为每个比较选择基线条件,但这使得图形过于繁忙,我们最终完全依靠文本来传达此信息。

有选择地删除了理解页面关键信息不必要的细节。(这不应与消除不方便信息的行为混淆)。如果您有空间并且读者有时间,请务必在支持细节的上下文中显示数据模式。但在这种情况下,我们的目标是阐明和说明要点,并避免用无关信息分散关键信息。同时,牢记吸引和愉悦读者也至关重要。

© . All rights reserved.