数据洪流:研究人员清点信息世界

在信息存储和计算能力方面,大自然仍然占据上风,但这不会永远如此


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


数据是统一所有科学领域的通用货币。随着科学的进步,数据激增,提供参考点、揭示趋势并提供证据来证实假设。然而,在科学数字化的几十年里,数据呈指数级增长,有时会威胁到将知识和信息淹没在噪音的海洋中。

科学》杂志在本周的特别报道中探讨了这一趋势,编辑们认为,该报道提出了两个主题:“大多数科学学科都发现数据洪流极具挑战性,如果我们能够更好地组织和访问数据,就能实现巨大的机遇。” 该报告的文章重点分析了理解数据洪流所面临的挑战,这些数据洪流尤其来自气候科学、神经学和基因组学。

然而,最有趣的文章之一试图量化我们实际谈论的数据量,并区分了数据和信息之间的关键区别。在“世界存储、交流和计算信息的技术能力”一文中,马丁·希尔伯特,南加州大学安嫩伯格传播与新闻学院的博士候选人,以及普里西拉·洛佩兹·帕韦兹,智利圣地亚哥加泰罗尼亚开放大学研究社会信息与知识的研究生,报告了他们在 1986 年至 2007 年期间跟踪 60 种模拟和数字技术的努力。研究人员发现,随着数字技术进入主流,这两个十年产生的数据量呈爆炸式增长。例如,2007 年电子存储的数据量相当于当时地球上每人 61 张 CD-ROM。从透视角度来看,如果将这些 CD 堆叠起来,它们将从地球延伸到月球,再加上四分之一的距离。

大众科学》采访了希尔伯特,他还在 2000 年至 2008 年期间创建并协调了联合国拉丁美洲和加勒比经济委员会的信息社会计划,内容涉及他与洛佩兹·帕韦兹合作的项目的动机、他们的研究对希尔伯特社会科学领域的潜在影响,以及人类技术创新与大自然的抗衡程度。

[以下是本次访谈的编辑稿。]


是什么促使您计算世界存储、交流和计算信息的技术能力?
在社会科学中,我们已经谈论数字革命和信息社会很长一段时间了。我们知道这些技术是生产力和经济的驱动力。我们知道它们对于政治自由非常重要——想想埃及现在正在发生的事情。我们知道它们改变了家庭的组织方式——想想家庭成员如何在离家时使用手机进行交流。它们改变了各个方面的社会行为。然而,与其他科学不同,社会科学尚未践行信息时代的口号。我们的论文基本上是对将社会科学带入信息时代的贡献,这很重要,因为信息似乎是所有科学领域中统一的变量之一。我们特别感兴趣的是了解信息增长的速度以及我们数字化信息的速度。

还有其他研究侧重于衡量人类的硬件能力。现在那不是信息,那只是数据。我们在这里所做的是标准化压缩率,这基本上将所有数据转换为信息。

“标准化”压缩意味着什么?
我们研究背后的理论实际上非常古老,可以追溯到 [美国数学家、电子工程师和密码学家] 克劳德·香农 在 1948 年提出的信息论。因此,基本上香农所说的是,我们将信息定义为不确定性的反面。如果您有不确定性,您就没有信息。一旦您收到信息,不确定性就会得到解决。他将一位定义为将不确定性减少一半的东西。我们将存储和通信硬件容量中包含的数据转换为信息位。我们使用 2007 年可用的最有效的压缩算法,假设所有冗余都已删除,来衡量信息。

在实践意义上,您可以这样想:您有一个 Word 文档,并将其保存在您的硬盘上。假设它是 100 KB,然后您用 zip 文件将其压缩到只有 50 KB。香农教导我们的是,如果您压缩它、压缩它、再压缩它,直到达到最极端的压缩率,我们就接近该文件中的熵(或实际信息量)。压缩算法会删除文件中的所有冗余数据,只留下纯信息。

在您的研究论文中,您在信息术语和技术方面显得非常精通。为了进行这个项目,您是否必须学习大量关于数据存储、压缩、计算和其他技术如何工作的知识?
我们必须学习一点。我是一名经济学家,而普里西拉 [洛佩兹·帕韦兹] 是一名电信工程师,所以我专注于社会统计、设备数量和信息的社会解释,而她更专注于技术。香农是教我们什么是信息以及如何衡量信息的人。我们的贡献是采纳这个相当古老的理论,并将其转换为对社会科学有用的方法论,我们首次将这种方法论应用于一个具体案例——衡量世界上有多少信息,有多少信息被存储、交流和计算。这种方法论也可以用于许多其他应用——例如,您可以衡量一个公司、一个部落或一个社会中有多少信息。

撇开您的研究方法不谈,了解世界存储、通信和计算的总技术能力对您作为一名社会科学家有何帮助?
这对我们帮助很大。如果我说 2007 年的总存储容量为 295 EB,这是一个巨大的数字。[1 EB 等于 10 亿 GB,或 100 亿亿字节。] 这样想一下这个信息量:如果您将 295 EB 的存储信息转换为书籍,您可以将美国或中国的每一平方英寸都覆盖 13 层厚的书籍。然而,这仍然只占人类所有 DNA 分子中可以存储的信息量的三分之一左右。

我们发现,2007 年人类通过单向广播接收了 2 ZB(1 ZB 等于 1 万亿 GB)的信息,相当于每人每天阅读 174 份报纸的信息量。然而,有趣的是,2007 年通过双向电信(如手机或电子邮件)交流的信息量仅相当于每天 6 份报纸。这告诉我们,在信息传输量方面,广播仍然大大优于电信。

我们还确定,计算的增长速度快于存储或通信能力。这很有趣,因为当您听到人们谈论信息社会时,人们会想到互联网和手机是一场通信革命。但实际上这有点像计算革命,因为我们的计算能力增长速度是通信能力的两倍。因此,真正令人着迷的领域是计算,它经常被低估,因为我们的注意力集中在 Facebook 和 Twitter 等通信界面上。

您将技术的存储、通信和计算能力与自然界中发现的能力进行了比较——例如 DNA 存储。您从这些比较中学到了什么?
看看我们的数字,这是一个庞大的信息量,但如果您将它们与自然界进行比较,它们仍然非常小。一个人的所有 DNA 分子可以存储的信息量是我们所有组合技术可以存储的信息量的 300 倍。计算机的计算能力非常强大,但它们每秒处理的指令数与人脑每秒经历的神经冲动数大致相同。当然,我并不是想说大脑和计算机是同一件事,但这向您展示了自然界实际上是多么精细地调整。我们说我们的技术非常好,我们为此感到自豪,但与大自然所做的事情相比,我们只是谦卑的学徒。

鉴于技术进步的速度,当技术赶上生物学时会发生什么?
现在生物进化和技术进化之间的区别在于,虽然生物进化非常强大,但它也非常缓慢。我们几乎可以肯定,在下一个世纪会发生的事情是,我们的技术能力将与我们的生物能力相提并论。您可以估计,到本世纪末,所有人类大脑加起来可以产生的神经冲动数将与我们所有计算机加起来可以产生的每秒指令数一样多。我们所有的存储技术将存储与所有人类 DNA 可以存储的信息一样多的信息。有些人将此称为奇点或其他什么。我不想暗示一台可以执行这么多指令的计算机与大脑一样智能或聪明,完全不是。我不认为计算机和人是同一件事,尽管它们肯定是互补的。尽管现在是谦卑的学徒,但我们学习得非常快。正是在我们这一代人和后代身上,我们将达到自然界正在处理的那种复杂程度。

但您也可以从另一个角度来看待它。我们每年花费 3.5 万亿美元来提高我们技术的信息复杂性,但如果我们在教育上投入更多资金呢?在非洲的许多地区,每个孩子的小学教育费用不到 50 美元。如果您问我,这些数字有点不同步。作为一名社会科学家,您会问:如果我们最终开始探索人类的信息能力,社会进化会发生什么?

您的研究涵盖的最后一年是 2007 年。您计算出的数字在过去三年中可能发生了怎样的变化?
我们涵盖了 20 多年的信息,并看到了在此期间相当稳定的增长率。我们看到计算能力大约每 18 个月翻一番,因此我们可以非常肯定,自从我们的研究清单在三年前结束以来,它已经翻了一番。存储容量大约每三年翻一番,因此这 295 EB 乘以 2,意味着现在我们应该有大约 600 EB。我们非常有信心,您今天可以轻松地推断出这些数字,也可以推断出未来几年。

© . All rights reserved.