本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
世界杯又回来了,每个人都有自己心目中的冠军。自人类在草原上首次赛跑以来,赌徒们一直在预测体育比赛的结果,但近年来,一种独特的统计分析方法已经接管了预测业务。从高盛到彭博,再到内特·西尔弗的FiveThirtyEight,每个人都有一个在线世界杯预测器,它使用数字而不是直觉来生成精确的比赛结果概率。例如,高盛预测东道主巴西有 48.5% 的机会赢得冠军;FiveThirtyEight 认为赔率为 45%,而彭博体育的结论是,Seleção 队获胜的几率仅为 19.9%。
这些数字从何而来?所有统计分析都必须从数据开始,这些足球预测引擎会浏览以前比赛的结果。这里需要相当多的判断。大型国际足球赛事并不经常举行,因此分析师必须选择如何权衡球队在不太重要的赛事(如国际“友谊赛”)中的表现,而在友谊赛中,没有任何重要的东西处于危险之中。建模者还必须决定从多久以前提取数据——当巴西最年长的球员已经 34 岁时,巴西骄傲的足球历史还重要吗?——以及如何评估个别球员在效力于曼联或皇家马德里等俱乐部球队期间的表现。
无论数据来自何处,建模者现在都必须将其纳入模型中。通常,建模者会将“谁将获胜?”的问题转化为“X 队对阵 Y 队将进多少球?”的形式。为此,她依赖 [PDF] 一种称为双变量泊松回归的统计工具。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
这些是三个不熟悉的词。让我们逐个拆解。“双变量”意味着有两个相互关联的变量,我们试图预测一个单一的结果——X 队对阵 Y 队的表现。“回归”只是意味着我们将一组数据拟合到一个模型。“泊松”是其中有趣的那个。
想象一下,你站在路边,想知道一分钟内有多少辆汽车驶过。首先,你需要收集一些数据。拿着秒表和计数器,你会看到一分钟内驶过 15 辆,下一分钟 18 辆,第三分钟只有 4 辆。这样做足够多的分钟后,你就会开始看到一种模式形成,一种 泊松分布,以发明它的法国数学家命名,目的是估计误判的频率。
一场比赛中的进球数也倾向于按照泊松分布分布。一个给定的球队最有可能打进一到两个球,有时是零个或三个,而很少打进四个或五个(或更多)。建模者会将球队先前表现的数据映射到他们可能对阵对手的进球数的泊松分布上。
赌徒呢?截至撰写本文时,在线博彩公司 Betfair 认为巴西是 3 比 1 的热门,即 24.4%。如果您相信高盛或 FiveThirtyEight 的分析师,他们认为巴西有近 50% 的获胜热门,那么您就获得了一个投注机会。当然,可能所有那些以 3 比 1 的赔率投注巴西的人也读过高盛和 FiveThirtyEight 的分析。
问题变成了:他们知道哪些统计学家不知道的事情?
图片 来自 Flickr 用户 Digo Souza