本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点
《经济学人》杂志宣称,数据是“数字时代的石油”。数据对于21世纪的意义,将如同石油对于20世纪的意义一样——成为新技术、新产品和新业务的推动者。数据将成为经济、社会和政治组织的核心。它是未来的清洁新资源,蕴藏着尚未被发掘的潜力。
但是,将石油转化为有价值的东西一直是一个复杂的过程。石油从地下开采出来时是原油,需要经过炼油厂的裂解才能转化为有用的东西。
数据也是如此。以其原始形式,它通常太大、太混乱且缺乏结构。为了解决这个问题,请想象一下“数据精炼厂”的概念——一个软件平台,它可以提取庞大的数据集,在这些数据中找到模式并进行预测。数据精炼厂是收集数据和从中提取价值之间的缺失环节。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的具有影响力的故事。
以数字技术为主导的科技公司已经在数据精炼厂方面表现出色。但很快每个人都需要理解和构建数据精炼厂。仅仅“使用数据”来指导您的业务是不够的。您的数据必须是有针对性的、专门收集的和精炼的。
现实世界的传感器是将这场数据革命从企业四面墙之外扩展到它们运营的更大环境中的下一步。如今,平均每辆汽车拥有 100 到 200 个传感器,每天产生约 1 太字节 (TB) 的数据。现在想想道路上的所有汽车——更不用说轮船、火车、卫星、智能设备、手机等等——您就会开始理解传感器数据推动数据精炼厂需求的规模和速度。这些传感器正在将物理世界转化为比特,让每个人都能更好地了解不仅是他们的供应链,还有整个生态系统。这意味着组织可以跟踪他们制造的东西的实际去向——从原材料到最终消费——以及他们关心的东西无论在地球上的任何位置都在做什么。
由于这场传感器革命,让计算机能够看到和理解世界,每个企业都将变得完全数字化,数据精炼厂将成为核心。这个比喻可能是新的,但大型科技公司已经了解其数据的价值几十年了——而那些在数据精炼方面表现出色的公司是世界上最大的公司之一。
寻找例子的最佳场所是在数字优先的领导者中:Facebook 已成为社交网络的数据精炼厂。亚马逊精炼消费者数据,Netflix 为视频做这件事,而谷歌为网页做这件事。
让我们关注谷歌,最初的数据精炼厂业务。
主要业务和摇钱树是他们的搜索引擎。搜索引擎是一个惊人的模型,因为网页(搜索引擎的数据集)是公开可用的。虽然不容易,但理论上任何人都可以构建搜索引擎(我参与了许多尝试过的初创公司)。此外,绝对没有锁定。在浏览器中输入“Bing.com”与输入“Google.com”一样容易。甚至界面也是相同的 10 个蓝色链接。但是,尽管微软投入了数十亿美元,但它就是无法让人们切换到必应。
为了做到这一点,谷歌为科学家创建了一个卓越的内部平台。它还收集了大量的用户数据。
谷歌获取了原始的 Web 数据集,对其进行了清理(例如,减少垃圾邮件),并构建了正确的工具来测试理论并快速改进其搜索算法。谷歌科学家无需担心处理数据——他们拥有一个平台,他们可以在其中快速实验和测试他们的理论,以了解是什么使搜索引擎更好。谷歌科学家并不比他们的竞争对手更聪明,他们只是拥有更强大的工作台,这为他们提供了更多利用其智慧的机会。
它超越了谷歌的内部平台。基于数据精炼厂的业务的良性循环是:维持更多的市场份额,更多的用户使用该服务,产生更多的数据。聪明的企业将所有这些数据精炼成更好的服务……从而吸引更多的用户。
在谷歌的案例中,他们拥有悠长的用户搜索查询历史、用户行为、点击、竞价——实际上是用户与谷歌的每一次互动。通过将这些专有数据融入其数据精炼厂,谷歌获得了优势。无论其竞争对手花费多少资金来构建更好的算法,他们永远无法收集到这些多年的数据。谷歌拥有一条天然护城河,它充满了数据。
数据精炼厂在改进当前服务方面非常强大,但它们也可以催生新型的数据驱动产品。这方面的经典例子是亚马逊的产品推荐,这是一个多年来不断优化的新功能。现在推荐如此出色的原因是数十年的购买信息——只有(可能)像沃尔玛这样的零售商才能复制。
Twitter 是一个反例,它拥有大量数据宝藏,但似乎无法构建功能性数据精炼厂。我的上一家公司 Zite 主要基于社交图谱中内置的智能,这使我们能够向人们推荐精彩的文章。Twitter 拥有大量的社交互动,这些互动经常调用网页,使其成为挖掘数据以跨广泛主题进行推荐的完美场所。在 Zite,我们构建了一个数据精炼厂,该精炼厂经过优化,可以每天使用数据为用户创建推荐。我们能够在 Twitter 数据集之上构建产品。直到今天,我仍然感到震惊的是,Twitter 还没有做同样的事情,并通过精炼他们的数据宝藏来推出产品——或从根本上改进其服务。
到目前为止,所有拥抱数据精炼厂的公司的例子都是数字优先的企业,它们在线诞生于分析数据的世界。实体产品公司现在正在使用传感器来数字化其运营并生成自己的专有数据。通用电气多年来一直致力于其工业数据精炼厂 Predix,努力将大量的生产和运营活动以及跟踪转化为有用的反馈循环。
传感器将导致每个企业重新思考其数据战略。它们变得更小更便宜,而且它们都能够联网以将其数据发送回中央大脑。这意味着过去在物理世界中运营的企业,那些没有被 PC、互联网或移动设备从根本上颠覆的企业,将在数据世界中受到颠覆的威胁。他们的实物商品将变成比特,因此可以进行分析。
与石油不同,公司不再需要寻找价值所在;许多公司都坐拥虚拟石油储备。但即使是大量的数据也无法神奇地转化为价值。这需要一个数据精炼厂,以及一套新的工具来寻找和提取价值。
无论您身处哪个行业,您都在生成数据。您如何存储它?您正在使用什么工具来发现其中的价值?我很想听听您正在做些什么来确保您的企业不会在数字精炼厂革命中落后。