体育分析中机器学习的标准:预测未来

拓荒号:陈峰 (企业头条)

运动分析有相当一部分属于机器学习,即从数据中研究战术和能力。


体育分析


那么既然我们要做这些分析,我们是否要有一个标准呢?我们的标准是什么?

标准很简单,我们只看未来的预测表现

这与其他机器学习应用程序相同,为了评估战术,我们只看这种战术的预测性能。不否认棒球中的内场转移防守战术是对付极端击球手(如Joc Pederson或Altuve)的绝佳战术,只是因为它恰好被一个打得不好的球逆转,因为我们可以从数据中发现,这种战术对于这类击球手未来的预期表现更强。去左边的牛棚被左边的马特奥尔森射中?这个选择是正确的,数据也告诉我们,马特奥尔森在左路投篮的预期表现比右路要差很多:99 vs 144 wRC,左路投篮的表现只有右路的69%。


体育分析


评价能力,我们也看他未来的预测表现。李基今年几乎没有什么作品?他还是一个糟糕的棒球初学者。特劳特在过去的五场比赛中只有一次命中?他仍然是MLB最好的击球手。易建联20分19篮板?他仍然是NBA最糟糕的攻防球员之一。威斯布鲁克,三分,十分,七分?他仍然是NBA最差的三分球员之一。

换句话说,体育分析师应该是先知,而不是事后诸葛亮
事后聪明很容易。给出一些数据并讲述一个似是而非的故事来充实数据并不难。

一个常规赛强势的铁牛投手三天前炸了2分,这场比赛继续去高杠杆局,结果又炸了?垃圾调度,投手心态炸了,不断投高杠杆。一个强壮的铁牛投手三天前上场,轰了2分。这局继续去高杠杆局,结果是三上三下?好的调度,好的投球内容/偶尔几投不中,运气不好,给球员信心。领先2分,0出局,二垒有人,二击不中,不碰,最后没分?垃圾调度,战术技能,推进技能。2分领先,0出局,2垒,有人没打中,第二次打中,打中,最后直接接触失败,打中一个小飞球?这也是一种垃圾战术。一切都是为了中锋,打击和不信任球员。反正摸嘴摸皮肤的时候,一切都是合理的;我有键盘,全世界都有。


体育数据


但是这些事后分析真的有用吗?
教练和球探真正看的是什么?不就是未来的预期表现吗?说白了,一切都是为了球队有更好的战绩,赚更多的钱,进入季后赛,在未来赢得更多的总冠军。讲故事很容易。我可以编出几组故事,任何结果。事后聪明的事,往往对未来无用。所谓的前猪事件没有任何意义。而且,当样本量小且有噪声时(单个事件是随机的),往往会出现很多奇怪的现象。遗憾的是,体育比赛往往满足这两个条件。我们众所周知的结论是,即使MLB联盟第一的宇航员是联盟最后一只老虎,后者(弱队)的胜率往往也有20%甚至更高。单次投掷和单次篮球攻防的随机性更大。

即使单个事件的概率很低,当我们多次观察这些事件时,也不一定很低。连续7次为正的概率是不是很小(~0.8%)?然而,如果我们观察到100次正反概率各为一半的硬币翻转,则至少有一次连续出现7次正概率的概率约为32%。如果你观察1000次呢?那是98%!如果把范围拉长,比如你看一个赛季的数据,看输赢,看投手和打者,那么真的有那么多数据供你观察。也就是说,如果你深挖一个赛季的数据,你总会发现一些奇怪的事情发生的概率很大。如上所述,抛硬币的结果纯粹是随机的,显然对未来没有预测作用。


体育比赛


一门学科,作为一门科学,通常必须是以下两种之一
或者说,它有一个完整的公理系统。也被称为“形式科学”。数学,无论是欧洲几何、实分析还是理论计算机科学,都是基于非常完备的公理系统——几何公理、实数和测度公理、图灵机等计算模型——。

或者,有足够有说服力的实验数据具备预测未来的能力。有很多这样的。物理定律,从量子力学到天体物理学,都需要实验证据来说话。药物研发往往需要一个完整的、多周期的试验,证明对未来有可接受副作用的患者有效,才能通过FDA的严格检查。顺便说一句,这个要求与这个科学研究的对象是自然科学还是社会科学无关。事实上,正规的社会科学研究,如心理学、(计算)语言学或现代微观经济学,至少需要和许多自然科学一样多的预测能力,甚至更为严谨。


体育竞赛


体育分析是一门科学,它一定是其中之一
当然,它必须属于第二类,即必须有实验数据说话,有预测未来的能力。这与很多“学科”不同。这些学科甚至有所谓的“流派”,观点之间差距很大,甚至相反。作为一门学科,这种现象是非常不正常的。你见过数学家不同意哪个定理吗?证明它是对的,它是对的。在基于数据的学科中,不一致性也很小,通常只取决于所使用的数据和模型之间的一些微小差异,这些差异通常非常微妙。什么“学科”会有学校?典型的就是看占卜算命,看各种宗教,看各种传统东西方医学的人。没有运动分析学派。

(体育产业责编:陈峰 )
2021年09月01日 05:02[查看原文]