来源:The Athletic
作者:Tom Worville
3月24日发布

去年,The Athletic记者Ben Baldwin写了一篇文章,详述了另一项“足球”运动中数据分析的“十诫”。就是那种形状很特别的“足球”。咱们熟悉的这项美妙的运动也可以运用数据进行分析,但是有数据归有数据,不代表这些数据总是会被正确地使用。
这篇指南将会向你提供聊到球队和球员时所需的大背景,更应该关注哪些数据,以及如何更好地解答在比赛中看到的现象。
下面,就是足球版的《十诫》:
一:不应该用扑救成功率来评判门将的扑救能力
例子:“杜布拉夫卡在本赛季英超门将中排名第八,他的扑救成功率为73.9%。”
产生误导的原因:扑救成功率是用扑出射门次数除以总计面对射门次数得到的。简单来说,这样的计算方式并未考虑到门将面对的射门的不同类型和不同质量,而这些因素都会对门将能否完成扑救造成很大的影响,换言之,会影响到门将的扑救成功率。
假设有两位门将,分别是X和Y,门将X面对的是10次小禁区内的射门,而门将Y面对的是10次30码甚至更远位置的射门,X当然比Y的扑救难度大得多。
预期进球数以及预期射正进球数告诉我们,在更远的区域打门进球概率自然会小一些,那些直奔门将而去或者打在中路的射门都更有可能被阻挡。相信任何一个熟悉足球的人都会得出相同的结论。
如果在计算数据时把所有射门的权重都设为同一个值,那对门将X来说就是极大的不公平,造成一种门将Y比实际上强得多的数据假象。
应该使用的数据:借助“预期射正进球数”来衡量门将面对的射正打门的质量,再与实际的失球数进行对比。正如我在上文写到的,要为门将的数据提供足够的大背景。
“阻止进球数”能告诉我们一名特定门将与平均水平的门将相比,能多少次化解失球危机。如果比较这一数据,杜布拉夫卡看上去远比扑救成功率所示更强,而瓜伊塔俨然是世界级。

二:不应该用跑动距离或冲刺数据评判球员是否努力
例子:“厄齐尔今天的跑动距离比所有阿森纳队友都长,达到了11.2公里。”
产生误导的原因:英超各俱乐部从2013-14赛季起就引入了追踪数据,作为交易的一部分,媒体也可以得到相关数据。不过到目前为止,我们真正能看到的也不过是跑动距离和跑动速度。
实际情况是,这些数据可能是最不相关的数据,然而众多媒体在分析球队和球员表现时,还是会经常使用。不应该继续使用的原因有很多。
首先,跑动距离和获胜概率之间没有关联。足球并不是什么计时赛,根据去年欧足联的欧冠技术报告,顿涅茨克矿工在所有32支球队中位居场均跑动距离第一,可是最后仅仅位列小组第三,跌入欧联杯32强。曼联的场均跑动距离在倒数第二,还是跻身8强。跑动距离并不能说明太多问题。
其次,跑动距离和冲刺次数与球队的战术风格有关,要看教练是什么要求,球队是什么战术体系,对手是如何布置的,比赛时的竞技状态等等,变量非常多。如果不能控制这些变量(或者最起码提及),那么跑动距离和冲刺数等数据就不一定能反应比赛真实情况。
最后,还有一些证据表明,更少的跑动反而更有益,看看梅西就懂了。大多数球员的体能足以撑完整场比赛,但是合理利用场上空间才是最重要的。同样的,足球场上从来不乏快马,但是最顶级的球星都是懂得在最合适的时机亮出自己速度的球员。比赛中单纯地用速度生吃对手的机会并不多,而起速过掉防守人或者在对手之前争下球权才是关键。
这些数据当然有其价值,但是更应该用来评估球员的身体管理情况,确保他们处于能够出赛的状态。足球是一项基于空间和时间的运动,但现有的工具还没法切入要害。
应该使用的数据:现在尚无合适的替代数据。在使用跑动距离和冲刺数等数据前,最好说清楚背景,否则,还不如不用。
三:不应该用控球率来评判球队实力
例子:“热刺以79.8%的控球率0-1负于纽卡,这是英超自03-04赛季来输球一方第二高的控球率。”
产生误导的原因:正如Marti Perarnau在《Pep Confidential 》一书中写到的:“控球率只是达到目的的一种手段而已。它就是个工具,不是球队的目标,也不是最终目的。”莱斯特城夺得了2015-16赛季的英超冠军,但是场均控球率也不过是42.6%,而曼城上赛季夺冠的过程中,场均控球率又是67.7%。本质而言,球队控球率是高是低无所谓,重要的是怎么利用好球权。
除了球队的战术风格和比赛布置,控球率并不能告诉我们太多信息,最终还是会被记分牌带偏。比如马竞之前在欧冠中1-0击败利物浦,开场仅仅4分钟打进一球后,马竞就开始稳守了,最终控球率仅有27%,这个数据和比分完全不是一回事。
应该使用的数据:控球率仍是一项有用的数据,它能告诉我们哪一方握有更多球权,但是千万不要用它来争辩说一支球队比另一支球队更好。预期进球数是一个衡量球队实力的好得多的数据,所以如果你以后再想和其他人讨论球队的实力高低,看看他们自己能创造多少机会,以及能限制对手获得多少机会。
四:不应该用抢断和拦截等数据评判球员的防守能力
例子:“里卡多-佩雷拉是英超最佳后卫,本赛季已经完成了119次抢断。”
产生误导的原因:并非球员的所有防守努力都能转化为数据,而能够转为数据的方面又经常会因球队的风格产生偏差。逻辑上讲,如果一支球队控球率偏少,他们自然会有更多的防守机会。
出于这个原因,抢断和拦截数据反映的更多是球员的防守风格(比如是被动防守还是主动出击),而非球员的防守能力。范戴克平均每90分钟仅仅尝试0.76次抢断,但是没人会说他的防守不行。
应该使用的数据:为解决这一问题,我们可以调整防守数据,改为对手每1000次触球中完成的防守次数,这种方法能把所有人拉到同一水平线上,也能更好地解释很多问题。亨德森每90分钟完成2.6次抢断,在英超排名第15位,但是按上述方法转换数据,对手每1000次触球亨德森会抢断4.6次,他就成了英超中防守端第5活跃的中场球员。
根据控球进行调整后的防守数据能更全面地反映防守端的行动,但是这些数据仍然只能展现所谓的“风格”,不代表球员的整体实力。
五:不应该用抢断成功率来评判一名球员的抢断能力
产生误导的原因:我会告诉你们一个秘密,抢断失败和抢断成功其实是一回事,当球员尝试抢断时,会忽略另外两个关键结果。
一般抢断就被分为两类:成功的,和不成功的。抢断成功是指球员尝试后顺利赢回球权,而抢断失败则是做出了尝试但没能夺回球权。抢断失败可能是让对方拿一个界外球,可能是一时破坏了对方拿球还能卷土重来,还可能是其他的一些情况。
抢断成功率目前的计算方式是抢断成功次数除以抢断总次数。目前,这项数据告诉我们的是球员抢断为球队拿回球权的比例。
有什么问题吗?这项数据忽略了抢断时被吹犯规,以及抢断时被持球人撞开出现犯规的情况。本赛季英超所有边后卫之中,马丁-凯利的抢断成功率是最高的,达到了80%。目测感觉万-比萨卡应该是头名,结果仅排在第11位。什么情况?
应该使用的数据:真实抢断成功率有助于避免这种错误,把上述缺失的两块数据加上,真实抢断成功率就是抢断总数/(抢断总数+尝试抢断失败次数+尝试抢断时出现犯规次数)。通过这样的计算,万-比萨卡的真实抢断成功率为78.9%,位列英超第一,而马丁-凯利排在第29位,这就符合现实多了。

六:不应该在小样本情况下用进球数与预期进球数之差评判球员的终结能力
例子:“菲尔米诺预期进球数为12.7粒,实际只打进了8球,因此他的终结能力不佳。”
产生误导的原因:说到球员的得分能力时,有两项至关重要的因素需要考虑,并单独加以评判。第一个是前锋为自己创造机会的能力。进球是前锋的主要职责,而想要进球,就必须有射门。为了评估这些射门的质量,我们会看预期进球。如果一名球员总是能出现在绝佳的得分位置上,进球迟早会到来。
射门是一码事,终结又是另一码事。在小样本下(比如一个完整的赛季),一名球员的进球数和预期进球数可能并不匹配。比如菲尔米诺,本赛季他的进球数要少于获得的机会,但是说到出现在最合适的得分位置上,他这个赛季却是做得最好的。

在利物浦的近三个赛季,菲尔米诺的实际进球数分别高于、基本持平和低于预期进球数。这还不足以就他的终结能力给出具体的结论。
应该使用的数据:比较预期进球数和预期射正进球数是评判球员终结能力的一个非常基础的方法。即使是选择了更大的样本量,也需要谨慎使用,至少需要考虑球员多达几百次的射正。
关于终结能力是否是一项可重复性的技能,足球分析界也有很多争论,所以在出现所有人都信服的答案前,先依靠预期进球等数据吧,随着时间累积,大多数球员的进球数最终会和预期进球数呈现相关性。
七:不应该用某一名特定球员是否在场的数据差评判球队表现
例子:“阿森纳本赛季没有厄齐尔在场的胜率(40%)要高于有厄齐尔在场的胜率(28%)。”
产生误导的原因:此类“有或没有”的数据是为了单独说明一名球员的影响力,看看有他在和没他在对球队的战绩有什么影响。
这类数据对于篮球等运动更有效果,这些项目的阵容变化更大,得分也高得多。而在足球这边,场上球员实在太多,这样的数据不适合评判一名球员到底好不好。不论在不在场,超出厄齐尔控制范围的因素都太多了。
下面稍微列举一些使用这类数据时应该考虑的一些因素:对手的实力如何?厄齐尔在场时身边队友的实力如何?比赛中是否出现了红牌?厄齐尔是替补登场还是首发出场?
同样地,你也会遇到伯恩利问题。本-米和詹姆斯-塔尔科夫斯基本赛季英超都是全勤王,踢满了每一分钟。他俩谁更好?永远说不清。
应该使用的数据:在分析球员时应该考虑到他们的场上位置,关注他们他们可以掌控的因素。对厄齐尔和其他创造型中场来说,就应该关注创造机会次数,对于前锋来说,就应该关注进球数,以此类推。还是把“有或没有”这类数据留给那些室内项目的人吧。
八:不应该用传球到位率评判球员的传球能力
例子:“菲尔-巴尔兹利是英超中传球最差的边后卫,到位率仅有63.6%。”
产生误导的原因:球员们传球是否精准很大程度上取决于教练组对他们的要求,以及拿球时自己做出的选择。有一些球队,比如曼城,在压力不大时,会在特定的区域采取大量的短传。因此曼城的球员经常会有非常高的传球到位率。另一些球队,比如伯恩利,总是尝试远程打击,更倾向于选择长传,自然到位率就会受到影响。
伯恩利的这些传球和短传相比当然不够精准,但是并不能说明全部情况。想想下面这个例子,来自最近利兹联的一场比赛:

科斯塔的传球没能成功,但主要是因为赫尔城后卫贡献了精彩的防守。这个例子中我们更应该关注的是科斯塔是如何掌控球权并且推动进攻的。类似的情况并不鲜见,球权没丢,但是传球没成功,球员在数据上多了一次传球未果。
应该使用的数据:未来我会就此更详细地分析,目前我暂时不认为有多少数据能适当地解决这一问题。预期传球到位率也许可以更全面地说明一名球员的传球到位率为何不高,但是这个数据还不算普及。
九:不应该因球员“不成功”的次数多就草率评判
例子:“亚历山大-阿诺德的不到位传球比英超其他所有非门将球员都要多。”
产生误导的原因:The Athletic的考克斯在一月时曾对英超中的“失败”做了详尽的解释,所以我这里就不展开了。每个赛季的金靴奖得主没能得分的次数都要远远多于得分的次数。但是如果我们想要找出最高效的终结者,我们就会看射门转化率。
应该使用的数据:在大多数情况下,如果关注的焦点是一名球员“失败”的次数,还是转为百分比,增加更多的背景信息为好。是单纯就是失败的次数多,还是他们本来尝试的次数就比其他球员多得多?
十:不应该基于不同的比赛时间比较不同的球员
例子:“亚历山大-阿诺德和詹姆斯-麦迪逊并列成为英超创造机会次数第二多的球员,分别贡献了75次。”
产生误导的原因:出场时间更多的球员自然有更多机会在场上进行各种尝试。如果不给出场时间施加限定条件,出场时间更少的球员几乎总是要显得弱一些。
我可能是在为永不止步的布恩迪亚建立名望,不过对出场时间加以限定,考量每90分钟的表现后,布恩迪亚实际上是英超中第二出色的机会创造者。
应该使用的数据:通过调整为每90分钟内的平均数据,出场时间不同的球员也可以放在一起进行比较,这样得出的结果也更为公平。