本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点
碗赛冠军系列赛 (BCS) 大学橄榄球排名正处于动荡之中。连续两周,排名第一的球队都被来自德克萨斯州中部的弱队击败。(完全公开:作为贝勒大学的校友,以及农工大学校友的女儿和孙女,我可能有点沾沾自喜。)BCS 排名非常重要:大学橄榄球没有冠军赛(尚未),排名决定了哪些球队可以参加最重要的碗赛,包括排名第一和第二的球队之间的全国冠军赛。确定足球碗分区 (FBS) 中 120 支大学球队的排名并非易事,尤其因为球队只打大约 12 场比赛,这意味着他们不会与 90% 的球队交手。
目前,BCS 排名由三个部分组成:哈里斯互动民意调查和教练民意调查——两者都是对各种大学橄榄球专家的调查——以及六个不同计算机排名系统的平均值。这些成分经过加权平均和异常值处理后,形成了我们既熟悉又讨厌的 BCS 排名。
排名,尤其是计算机模型,可能很神秘。哪些因素会影响排名,我们可以信任得出的数字吗?排名创建者需要避免哪些陷阱?去年,亚利桑那州立大学新晋统计学博士安德鲁·卡尔问了自己这些问题,并决定使用 BCS 计算机模型规则创建自己的排名系统,以便更好地理解这个过程。然后,他撰写了一篇关于他自己的大学橄榄球排名模型以及不同选择对结果影响的论文,该论文在《体育定量分析杂志》上发表(预印本在此)。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
卡尔说,BCS 排名系统最大的弱点是它只允许计算机模型考虑球队的二元胜负记录,而不是胜负分差,大概是为了减少球队在对阵实力较弱的对手时刷分的可能性。“从统计学的角度来看,这是一个比使用胜负分差更具挑战性的概念,”卡尔说。“它有一个非线性组成部分。”(非线性是数学术语,意思是“不可能解决”。)一个问题是,当一支球队保持不败时,许多仅使用胜负数据的模型会给他们分配无限的获胜几率。糟糕。
卡尔的方法使用“广义线性混合模型”。整个赛季的胜负会为每支球队创建一个评分。有点令人困惑的是,评分与排名不同。评分的顺序决定了排名,但评分包含更多信息。排名相差一位的球队可能具有非常接近或非常遥远的评分。在这种情况下,评分的差异可能在误差范围内,但排名不会反映这一点。如果模型是完美的,并且世界没有意外,那么评分较高的球队将始终击败评分较低的球队。“广义”一词意味着评分可能不遵循正态分布,即著名的钟形曲线,“混合”一词意味着该模型包含一些随机效应,因为现实世界会带来一些意外。不幸的是,该模型最终吐出了一个非常可怕的计算:一个积分,其维度与排名中的球队数量相同,如果仅限于有资格参加碗赛的球队,今年是 120 支。(如果您学过多元微积分,还记得 3 维积分有多难吗?再增加 117 个维度并不会让事情变得更容易。)卡尔无法确定他的模型与 BCS 使用的计算机模型有何不同,因为大多数模型都是专有的。
卡尔实际上开发了几个不同的模型,每个模型都改变了评分的分布、随机变异的数量和类型、选择的积分解近似方法,甚至是否只对 FBS 球队或所有 Division 1 球队进行排名,包括常春藤联盟和 Big Sky 联盟等规模较小的联盟中的球队。卡尔发现,总的来说,这些选择引起的变化与评分的标准误差相比很小,但当然,即使评分的微小差异也可能改变两支球队的排名,从而可能影响谁能参加冠军赛。
如果计算机模型如此成问题,为什么还要使用它们呢?卡尔说,今年,佛罗里达州立大学 (FSU) 突显了计算机排名的实用性。FSU 只有一场失利,但它赛程轻松。人工民意调查将 FSU 排在第五和第六位,但计算机排名——包括 BCS 和卡尔的排名——将其排在 15 位左右;与接受调查的人类相比,计算机模型对赛程强度的敏感度更高,并且对胜负记录的情绪化程度更低。
卡尔说他不是一个赌徒,但他有时会和朋友进行非正式的预测。“我的其他朋友都没有自己的模型,”他说,但他承认他的模型可能不是最好的模型之一——他是在 BCS 计算机排名系统规则的约束下工作的。如果他真的想大获全胜,他会使用一个考虑胜负分差的模型。
目前,卡尔的排名与 BCS 的排名相差不远。BCS 前五名的球队是(按顺序)圣母大学、阿拉巴马大学、佐治亚大学、佛罗里达大学和俄勒冈大学。卡尔的最佳模型将圣母大学、佛罗里达大学、阿拉巴马大学、俄勒冈大学和斯坦福大学排在榜首。它们相差不大,但即使是微小的变化也会对最终参加不同碗赛的球队产生重大影响。在只剩下一支不败球队的情况下,谁知道在最后几周会发生什么呢?(对不起,圣母大学球迷,但我喜欢这种混乱:加油,南加州大学!)