本文发表在《大众科学》的前博客网络中,反映了作者的观点,不一定代表《大众科学》的观点
想象一下,在一家超市购物,所有商品都存放在看起来完全相同的盒子里。有些装满了麦片,有些装满了苹果,还有一些装满了洗发水。购物将是一场绝对的噩梦!大多数开放数据网站(通常是政府网站)的设计,这些网站分发人口普查、经济和其他数据供自由使用和重新分发,并不完全等同于这个噩梦般的超市。但也很接近了。
在过去的十年里,这样的网站——data.gov、data.gov.uk、data.gob.cl、data.gouv.fr 等等——已经在世界各地创建。然而,它们中的大多数仍然以指向表格的链接,或指向其他难以理解的网站的链接的形式提供数据。在最好的情况下,数据通过 API(应用程序编程接口)提供,这些 API 是简单的需要用户具备基本编程知识的数据查询语言。因此,理解每个数据集中的内容需要下载、打开和探索该数据集,这对用户来说是非常繁重的。噩梦般的超市的比喻并非遥不可及。
.png?w=540)
美国政府的开放数据网站
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。
参与创建开放数据网站的人们的共识是,目前的努力已经失败,我们需要新的选择。将您的浏览器指向这些网站,您就会明白原因。大多数开放数据网站的设计都很糟糕,我在这里不是在谈论它们的美学——也很差劲——而是谈论用于组织和向用户提供数据的概念模型。大多数开放数据网站的设计都遵循“把意大利面扔到墙上”的策略,即开放更多数据,而不是更好地开放数据,一直是驱动力。
目前开放数据网站的一些设计缺陷是显而易见的。更重要或可能更有用的数据集没有被放在这些网站的表面或得到适当的组织。在我们的超市类比中,不仅所有的盒子看起来都一样,而且它们还按照它们出现的顺序排序。这不可能是我们能做到的最好的。
还有其他一些重要的设计问题,尽管它们不太明显。第一个问题是,大多数网站以收集数据的方式而不是使用数据的方式提供数据。人们经常在寻找关于特定地点、职业、行业或关于指标(如收入或人口)的数据。如果他们需要的数据来自 X 的全国调查或 Y 局,那么它对于用户来说是次要的,而且通常——尽管并非总是——不相关的。然而,即使这不是我们应该向用户回馈数据的方式,这通常也是开放数据网站所做的事情。
第二个不明显的设计问题,可能也是最重要的一个,是大多数开放数据网站将数据埋藏在所谓的深层网络中。深层网络是互联网中搜索引擎无法访问或无法正确索引的部分。网络的表面由文本、图片和视频组成,搜索引擎知道如何索引它们。但是搜索引擎不擅长知道您正在搜索的数字隐藏在开放数据网站上描述不佳的页面中链接的 zip 文件中的逗号分隔文件的第 17,354 行中。在某些情况下,按下单选按钮并从许多下拉菜单中选择选项可以得到所需的数字,但这也不能帮助搜索引擎,因为爬虫程序无法探索下拉菜单。为了使开放数据真正开放,我们需要使其可搜索,为此,我们需要将数据带到网络的表面。
那么我们该怎么做呢?解决方案可能并不简单,但它始于认真对待设计。这是我在 MIT 创建数据可视化引擎时已经做了超过五年半的事情。我们设计原则的最新迭代现在体现在 DataUSA 中,这是我们与 德勤、Datawheel 和 我在 MIT 的团队合作创建的网站。
那么什么是设计,我们如何使用它来改进开放数据网站?我对设计的定义很简单。设计是发现最能实现功能的形态。如果它们碰巧看起来也很漂亮,那算是一种奖励,但通常好的设计在美学上也会令人愉悦,因为最能实现功能的形态表达了简洁的巧妙或复杂性的奥秘。就开放数据网站而言,我们想要制作的是使人类能够理解数据,同时也使人类用来探索网络的搜索引擎能够理解数据的工具。
到目前为止,我们的解决方案是创建合并多个数据集并将其转化为故事的网站。DataUSA 合并了来自美国社区调查、劳工统计局、经济分析局和教育部等数据集的数据,为每个州、县、都市区、人口普查指定地点、行业、职业和大学专业创建了结合快速渲染可视化和文本的个人资料。
DataUSA 中的可视化帮助人类理解每个数据超市盒子里的内容。如果用户随后想要盒子里的东西,他们现在可以直接下载数据或通过我们的 API 访问它。DataUSA 中的文本,也可以由人类阅读,主要用于搜索引擎,并且部分由算法编写,这些算法有助于将数据集(最大值、最小值和平均值)最重要的基本数字带到网络的表面。
.png?w=600)
但是这种方法有效吗?根据我们的经验,答案是肯定的。看看 经济复杂性观测站 (OEC),这是我们为国际贸易数据创建的工具,否则这些数据会埋藏在深层网络中。在其 3.0 版本中,OEC 现在每月接待超过 50 万访问者,因为它对诸如“阿根廷的顶级出口产品”或“中国出口什么?”等搜索的排名第一的答案。通过专注于将数据转化为故事,而不是将其隐藏在下拉菜单后面,我们将贸易数据带到了网络的表面,并且我们现在拥有一个与搜索引擎共生的网站。

DataUSA 1.0 旨在对美国一些最重要的数据集做同样的事情。DataUSA 显示的数据范围从学费、工资到通勤时间、疾病流行率以及美国公民和外国出生居民的语言和文化渊源的数据。
因此,回到我们的超市类比,我们通过 DataUSA 所做的事情是将一堆盒子整理成主题通道,每个盒子都清楚地贴上标签。如果开放数据网站是宜家,我们已经确保建造了二楼。我们希望使数据购物体验愉快,而不是令人恼火,从而提高数据记者、分析师、教师和学生使用公共数据的便利性。此外,我们已确保使所有可视化都可以嵌入,以便人们可以使用它们来创建自己的故事,无论他们是经营个人博客还是主要报纸。
毕竟,开放数据的目标不应该仅仅是打开文件,而是激发我们对该数据描述的系统的理解。但是,为了实现这一目标,我们必须确保不要忘记设计也是驯服深层网络中难以控制的底部的必要部分。