节选自《终极算法:终极学习机器的探索如何重塑我们的世界》,作者佩德罗·多明戈斯。由 Basic Books 出版,Perseus Books Group 的成员。版权所有 © 2015。
为什么谷歌的市值比雅虎高那么多? 它们都通过在网络上展示广告来赚钱,而且都是热门目的地。两者都使用拍卖来销售广告,并使用机器学习来预测用户点击广告的可能性(可能性越高,广告的价值就越高)。但谷歌的学习算法比雅虎好得多。当然,这并不是它们市值差异的唯一原因,但这是一个重要原因。每一次未能发生的点击预测对广告商来说都是一次机会的浪费,对网站来说也是收入的损失。谷歌的年收入为 500 亿美元,每次点击预测提高 1%,都可能意味着该公司每年额外增加 5 亿美元的收入。难怪谷歌是机器学习的忠实拥护者,而雅虎和其他公司都在努力追赶。
网络广告只是一个更大的现象的一种表现形式。在每个市场中,生产者和消费者都需要在交易发生之前建立联系。在互联网时代之前,这方面的主要障碍是物理上的。你只能从当地的书店购买书籍,而当地的书店的货架空间有限。但是,当你可以在任何时间将任何书籍下载到你的电子阅读器时,问题就变成了选择数量过多。你如何浏览一个拥有数百万种待售书籍的书店的货架?这同样适用于其他信息商品:视频、音乐、新闻、推文、博客、普通的网页。这也适用于可以远程采购的每种产品和服务:鞋子、鲜花、小玩意、酒店房间、辅导、投资。它甚至适用于正在寻找工作或约会的人。你们如何找到彼此?这是信息时代的核心问题,而机器学习是解决问题的重要组成部分。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过 订阅来支持我们屡获殊荣的新闻报道。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。
随着公司的发展,它们会经历三个阶段。首先,他们会手动完成所有事情:一家夫妻店的店主会亲自了解他们的顾客,并且他们会相应地订购、展示和推荐商品。这很好,但它无法扩展。在第二个也是最不愉快的阶段,公司规模足够大,需要使用计算机。程序员、顾问和数据库管理人员纷纷涌入,编写数百万行代码来自动化公司所有可以自动化的功能。为更多的人提供了服务,但服务质量却不如以前:决策是基于粗略的人口统计类别做出的,计算机程序过于僵化,无法与人类的无限多功能性相匹配。
过了一段时间,就没有足够的程序员和顾问来完成所有需要的事情,公司不可避免地会转向机器学习。亚马逊无法将所有客户的口味整齐地编码到计算机程序中,而 Facebook 不知道如何编写一个程序来选择向每个用户展示的最佳更新。沃尔玛销售数百万种产品,并且每天都有数十亿个选择要做;如果沃尔玛的程序员试图编写一个程序来完成所有这些选择,他们永远也无法完成。相反,这些公司所做的是将学习算法应用于他们积累的大量数据,并让它们推断出客户想要什么。
学习算法是媒人:它们为彼此寻找生产者和消费者,从而减少信息过载。如果它们足够聪明,你就可以获得两全其美的效果:大规模的巨大选择和低成本,以及小规模的个性化服务。学习者并非完美,决策的最后一步通常仍然由人类来完成,但学习者会智能地将选择减少到人类可以管理的程度。
回顾过去,我们可以看到,从计算机到互联网再到机器学习的演变是不可避免的:计算机使互联网成为可能,互联网带来了大量数据和无限选择的问题;而机器学习则利用大量数据来帮助解决无限选择问题。互联网本身不足以将需求从“一刀切”转变为无限多样性的长尾。Netflix 可能有十万张 DVD 光盘,但如果客户不知道如何找到他们喜欢的,他们就会默认选择热门影片。只有当 Netflix 有一个学习算法来找出你的品味并推荐 DVD 时,长尾才会真正起飞。
一旦不可避免的事情发生,学习算法成为中间人,权力就会集中在它们手中。谷歌的算法在很大程度上决定了你找到什么信息,亚马逊的算法决定了你购买什么产品,而 Match.com 的算法决定了你和谁约会。最后一步仍然由你来完成——从算法呈现给你的选项中选择——但 99.9% 的选择是由它们完成的。一家公司的成败现在取决于学习者有多喜欢它的产品,而整个经济的成败——每个人是否以最优惠的价格获得最适合他们需求的产品——则取决于学习者的质量如何。
公司确保学习者喜欢其产品的最佳方式是自己运行它们。谁拥有最好的算法和最多的数据,谁就获胜。一种新型的网络效应开始显现:谁拥有最多的客户,谁就积累最多的数据,谁就学习最好的模型,谁就赢得最多的新客户,如此循环往复(如果你是竞争对手,则是一个恶性循环)。从谷歌切换到必应可能比从 Windows 切换到 Mac 更容易,但在实践中你不会这样做,因为谷歌凭借其先发优势和更大的市场份额,更了解你想要什么,即使必应的技术同样出色。可怜那些刚进入搜索业务的新手,他们以零数据与拥有十多年学习经验的搜索引擎竞争。
你可能会认为过了一段时间,更多的数据只是相同数据的重复,但饱和点还遥遥无期。长尾还在继续。如果你看看亚马逊或 Netflix 给你的推荐,很明显它们仍然非常粗糙,而谷歌的搜索结果仍然有很多不足之处。可以使用机器学习来潜在地改进产品的每个功能和网站的每个角落。页面底部的链接应该是红色还是蓝色?两者都尝试一下,看看哪个获得的点击次数最多。更好的是,保持学习者运行,并不断调整网站的各个方面。
同样的动态发生在任何选择众多且数据丰富的市场中。竞争正在进行中,谁学得最快,谁就获胜。它不仅限于更好地了解客户:只要有数据可用,并且数据正从计算机、通信设备以及越来越便宜和无处不在的传感器中涌入,公司就可以将机器学习应用于其运营的各个方面。“数据是新的石油”是一种流行的说法,就像石油一样,提炼数据是一项大生意。IBM 作为企业界的资深人士,已将其增长战略围绕为公司提供分析而展开。企业将数据视为战略资产:我拥有哪些竞争对手没有的数据?我如何利用它?我的竞争对手拥有哪些我没有的数据?
就像一家没有数据库的银行无法与一家拥有数据库的银行竞争一样,一家没有机器学习的公司也无法跟上使用机器学习的公司的步伐。当第一家公司的专家编写一千条规则来预测其客户想要什么时,第二家公司的算法会学习数十亿条规则,为每个客户学习一整套规则。这就像用矛对战机关枪一样不公平。机器学习是一项很酷的新技术,但这并不是企业拥抱它的原因。他们拥抱它是因为他们别无选择。