本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点
疯狂三月尚未结束,但有一件事是肯定的:没有人会赢得“巴菲特的十亿”。
在 NCAA 大学男子篮球锦标赛一半的比赛结束之前,所有参加雅虎“赢得十亿美元”竞赛的预测都已经至少出现了一个红色删除线。虽然有些人可能会将此归咎于像 14 号种子队 Mercer 淘汰 3 号种子队杜克大学,或 12 号种子队哈佛大学击败 5 号种子队辛辛那提大学这样的冷门,但除了沃伦·巴菲特之外,没有人能获得优势,他为任何挑选完美预测的人提供了 10 亿美元的巨额奖金。
对于 63 场比赛全部预测正确的可能性估计,从超过900 亿亿分之一(对于所有可能的结果总数)到74 亿分之一(假设 16 号种子队不会击败 1 号种子队,这在男子比赛中从未发生过)。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关当今世界塑造的发现和想法的有影响力的故事的未来。
尽管可能性很小,但这项活动比以往任何时候都激发了人们对创建完美预测的兴趣。虽然运气在决定胜者方面可能与硬数学一样重要,但这并没有阻止统计学家和数学家尝试创建终极算法。
一个名为 Kaggle 的网站甚至为表现最佳的预测模型提供奖金,尽管远远低于 10 亿美元。好消息是,有人实际上会赢得比赛赞助商英特尔提供的 15,000 美元奖金。但 Kaggle 的比赛并非普通的比赛。Kaggle 是一个供数据爱好者和专家相互比拼技能的网站,他们有机会从许多寻求通过众包解决问题的公司那里赢得奖品。奖品不是颁给最佳预测,而是颁给在整个比赛中表现最佳的模型。参赛者使用他们的模型为每个可能的对决分配一个可能性得分,因此爆冷不会让你完全出局。
Kaggle 的数据科学家威尔·库基尔斯基表示,与篮球挑战赛不同,他们举办的大多数比赛都是亚马逊和 Facebook 等大型公司想要解决的实际问题。在其中一个比赛中,保险公司 Allstate 希望根据事故中涉及的汽车特征来预测可能的保险索赔金额。库基尔斯基说,奖金通常约为 25,000 美元,尽管最高奖金为 300 万美元。在比赛过程中,参赛者可以看到他们的模型在排行榜上的位置,该排行榜会显示他们的得分和排名。
尽管来自各个领域的人都在 Kaggle 上竞争,但库基尔斯基表示,他们有一个共同点:“操纵数据和使用预测建模的能力。”网站上有很多学生利用这个机会进行协作和学习,另外还有“物理学家、计量经济学家、统计学家、精算师、商人。”尽管有奖金,但对于大多数人来说,比赛更多的是一种爱好,而不是收入来源。“这就是众包的冷酷现实,”库基尔斯基说。“几乎不可能按小时向人们付款…… 如果你进行实际的数学计算并计算期望值等所有东西,你会发现单靠奖金是不值得的。”
Kaggle 上的大多数问题都需要所谓的“大数据”来解决。库基尔斯基说,这种方法对于“数据饥渴型”问题很有用,这意味着“随着您输入越来越多的数据,它们会得到改进。”一个这样的例子是电影推荐引擎,例如 Netflix 使用的那个。实际上,Netflix 举办了一场类似于 Kaggle 上的比赛,以改进他们的推荐,并在 2009 年颁发了 100 万美元的奖金。库基尔斯基说,像这样的问题“非常细致”,并且需要一个可以考虑大量参数的模型。
但是,库基尔斯基认为,大数据的使用变得过于流行。“整个大数据理念确实处于一个大的炒作周期中,”主要是由一个用于处理信息的特定软件框架(称为Hadoop)驱动的。“并不是说 Hadoop 没用,”库基尔斯基说,但是当公司希望它来解决小问题时,“数据科学家和实际具有统计素养的人都在嘲笑,因为你不需要 Hadoop 来解决大多数问题。”
英特尔数据中心软件部门副总裁兼总经理博伊德·戴维斯希望 Kaggle 的篮球比赛将帮助那些尚未接受大数据的企业展示大数据的潜力。“对于那些不是技术人员的商业领袖来说,仍然很难理解,”戴维斯说。从疯狂三月的预测开始,许多人已经使用一定程度的统计数据和多个数据源,这是一个引入大数据概念的好方法。“Kaggle 比赛将使我们有机会展示,如果你实际使用更多的数据源,然后使用数据分析来利用它们,那么你将获得多大的更好的结果,”戴维斯说。(英特尔最近推出了基于 Hadoop 的英特尔数据平台,供公司处理大数据,库基尔斯基认为这至少是英特尔赞助比赛的部分原因)。
库基尔斯基同意博伊德的观点,即使用体育运动是将人们引入数据科学领域的好方法。他说,制定预测“是人们在现实生活中实际容忍一些统计数据的少数几个地方之一”。“他们没有意识到这一点,但在表面之下,他们正在进行某种粗略的数学建模。”