棒球数据狂热来袭,量化并不总是科学

套用伊尼戈·蒙托亚的话说,这个棒球数据——“我不认为它的意思是你认为的意思”

绿意盎然的外野。马皮棒球击打牛皮手套的砰然声。搜寻匆忙丢弃的注射器。是的,棒球又回来了。

在我第一次发现这项运动的神圣日子里,统计数据的神圣三位一体是 AVG(打击率)、HR(本垒打)和 RBI(打点)。今天我们有了 OBP、OPS、UZR 和 WAR——以及更多字母汤。

为了更灵活地运用这些数字,一月份我前往曼哈顿东 11 街一家名为 Bergino Baseball Clubhouse 的小型收藏品商店,听取史密斯学院经济学教授安德鲁·津巴利斯特的演讲,他与前纽约大都会队数字分析师、现任史密斯访问数学教授本杰明·鲍默合著了《数据棒球革命:评估棒球分析学的增长》。(没错——他们分析分析结果。谁来监督监督者?就是这些人。)


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


首先,什么是数据棒球学?传奇统计学家比尔·詹姆斯创造了这个术语,在“美国棒球研究协会”的略微修改的缩写“SABR”中添加了“metrics”(度量)。津巴利斯特解释说,“数据棒球学”指的是使用统计分析来理解和评估球员表现、球队策略和管理层策略。” 可惜的是,它并没有提到如果总经理的球队表现不佳,他到底要自责到什么程度。

数据棒球学在公众中得到广泛推广,得益于 2003 年出版的书籍,以及后来的 2011 年电影《点球成金》,这是一个关于出人意料地表现出色的 2002 年奥克兰运动家队的故事。该球队的关键是深入的数据分析,找到了价格低廉且被低估的球员。而其重要的统计数据是 OBP,“上垒率”(大致为安打加上保送除以上场打击次数),因为正如古老的棒球格言所说,“保送和安打一样好。”

实际上,当安打是本垒打时,保送显然不如安打好,即使本垒打在计算打击率时与安打的计数方式相同。这就是为什么现在衡量打击的最流行方法之一是 OPS,“上垒加长打率”,它对力量进行加权。因此,卢·格里克在 1928 年世界大赛中对阵圣路易斯红雀队时,OPS 高达惊人的 2.433,而他的打击率仅为可怜的 .545。

津巴利斯特对《点球成金》的一些说法提出了异议。例如,对上垒率的关注并不能解释 A 队的团队 OBP 如何从 2000 年的 .360 下降到 2001 年的 .345,再到其奇迹年(annus mirabilis)的 .339。但他最 salient 的评论是针对我们这些引用阿尔伯特·爱因斯坦的频率至少与西奥·爱泼斯坦一样高的人。

津巴利斯特和鲍默在《数据棒球革命》中写道,“除了白手起家的主题,[《点球成金》这本书] 还呼应了现代文化中另一个老生常谈的说法——量化就是科学的认知。” 如果你所做的只是计数,你可以统计一百万个从苹果树上掉下来的苹果,而不会提出万有引力理论。

在他的演讲中,津巴利斯特还批评了两个较新的统计数据。 UZR,即“终极区域评分”,声称可以衡量臭名昭著的难以量化的防守。“当德里克·基特一年处于 UZR 排名的后 10%,而第二年他处于前 10% 时,你不得不质疑,UZR 衡量的是什么?” 衡量基特约会的女模特的面部对称程度的统计数据无疑会在一年又一年之间具有更高的相关性。

最后,还有“高于替代球员胜场数”,或 WAR,它旨在计算一名球员相对于标准替补球员为球队总胜场数增加的胜场数。 显而易见且必要的后续问题是,WAR:它有什么用? 也许并非完全没有用,但可能比表面上看起来的要少。

“这些现在是专有指标,”津巴利斯特说。“生成这些指标的人正在向球队出售他们的指标……他们用来输入其算法的数字……以及他们如何权衡所有这些不同的数字——他们没有告诉我们…… 只要它是一个黑匣子,它就没有任何意义。”

津巴利斯特指出了大都会队三垒手大卫·赖特,他从三个不同的组织获得了几乎相同的 WAR 值。 但是我们所知道的总统计数据的内部方面却大相径庭。 因此,对相似值的趋同让人想起四个去猎鸭的统计学家。 四个人都错过了鸭子,但由于他们的射击平均值在鸭子所在的位置,他们宣布:“我们打中它了!” 是的,就像红雀队的投手群击败了卢·格里克一样。

© . All rights reserved.