[专栏] 预估进攻价值统计,CP3联盟第一

楼主: super1315566 (台湾中国,一边一国)   2014-07-21 16:24:28
老实说,这篇文张颇有深度,也因此不是很好理解,但是运动科学的崛起,除了能够检验
NBA明星的真正“价值”也绝对是台湾篮球需要更加重视的一环,至少这也是朴园队迅速崛
起的因素之一。
补上原文连结: http://ppt.cc/ISI8
文/ KIRK GOLDSBERRY
译/kewell
2013年2月14日,马刺对阵骑士,比赛意外地胶着。第四节还剩9.5秒的时候,新秀Dion
Waiters投进了堪称他职业生涯最重要的一球,让骑士取得2分领先。嗅到了爆冷味道的骑
士主场球迷陷入癫狂。
马刺叫了暂停,决定拿出他们最常用的一套战术:中场变线发球,Matt Bonner把球传给
Tony Parker——Parker此时距离篮框有30英尺远,他很快从左路开始攻击,Tim Duncan
给他做了挡拆,逼迫Tyler Zeller轮转对阵Parker。时间还剩6.7秒,Parker冲向篮框,
似乎是要突破上篮,但电光石火之间,他改变了想法——
Kawhi Leonard正站在无球侧而且无人看防。Parker在切入后吸引了Leonard的防守者
Waiters,Leonard面前空空荡荡。当Parker察觉到这一点后,他完美地将球传给Leonard
,接下来就是走程式了:Leonard需要做的就是投进自己最擅长的三分,而马刺最终也以1
分优势获胜。
但当你检视赛后的技术统计,很难察觉Leonard的功劳。他1投1中,只得到3分。Duncan的
挡拆没有计算在内,Parker的判断只被记为1次助攻。
Parker回顾了最后一攻:“我以为我会上篮,但我看到Kawhi处在空位。我打球的目的不
光是赢球,更是为队友组织进攻,所以我希望选择正确的打法。”
* * * *
2012年麻省理工学院斯隆体育资料峰会结束后不久,我接到了布莱恩-考普的电话。考普
专职处理NBA球员资料,也是NBA摄影追踪分析系统(SportVU)的负责人。当时我在哈佛
大学工作,考普说愿意和篮球资料分析家们分享这个难以置信的资料系统。他问我愿不愿
意“玩玩视觉资料”,我不愿错过这个机会,但也完全不知道那是什么东西。
几周后,我第一次看到这个被称为将改变篮球分析的原始追踪系统资料,那真是个“OMG
”的时刻。当时我面对的是一个27寸的苹果电脑,但我点开第一个追踪资料资料夹,密密
麻麻的数字立刻布满了大萤幕。我能看到的只有海洋一般的小数点,乱七八糟的XML标签
。显然,这是我见过的最“大”的资料,我还记得当时我有多惊讶,这么多数字竟然只代
表一位球员在一场比赛某一节的几秒钟所做的动作。而我电脑里有几千个这样的档案。我
需要帮助。
我找到卢克-布朗,一位研究空间统计(spatial statistics)的年轻教授,把自己的困
境告诉了他。卢克建议我们组建一个分析小组,寻找合适的毕业生建立一个分析这些资料
的程式。很快我找到了四位研究资料分析和电脑工程的博士生,2013年初,每位博士生都
分配到了不同的任务,而这个小组则被命名为“XY篮球”。
丹-塞尔翁和阿历克斯-丹阿穆尔是初创成员,他们俩都27岁,在哈佛资料分析部读了四年
博士。他们热爱体育,更喜欢分析资料和解码。当他们接触到追踪系统资料后,立刻开始
了脑力激荡,并写出了一个计划方案,十分具有独创性,但也同样难以实现。
* * * *
为了找到最完美的分析工具,我们需要认识到的第一点就是世界上没有最完美的分析工具
。就像没有资料能衡量人生一样,没有任何一个资料能正确地衡量篮球比赛。资料是把球
员表现和分析结合在一起的简化中介,体育分析就是个巨大的编码器,而其基础则是资料
能代表比赛的认知前提。
而2014年的现实是Adam Silver的NBA已经在球馆中放置了摄影镜头,追踪每个球员的每一
个动作。这些天花板上的“无人机”把具有潜在重要意义的字节传回到每支球队的监控
室里。鉴于就在几年前获得高质量资料还是件难事,现在资料分析的重担就落在了可能没
有把字节转换为有益情报的高阶工具的那些分析团队身上。现在资料分析的瓶颈不是没
有资料,而是没有能够分析资料的人。那些整天加班的分析师往往没有合适的硬件和软件
,也没有恰当的训练,最重要的是没有时间。
而在有天赋有硬件的资料分析家手中,追踪系统的资料自然是能为人们了解联盟做出巨大
贡献的。按考普的话来说,“我们只是在隔靴搔痒而已,能真正开始高阶资料分析还需要
更多努力。”NBA的大资料时代才刚刚开始,大家还都在为一个扣篮喝彩,因为它对球员
、球队、媒体,以及最重要的球迷都有好处。但这是不够的,就像Parker所说,我们必须
保证球员“打出正确的战术。”
* * * *
Parker是世界上最好的组织者之一。这十几年间,他一直是马刺的进攻泉源。但虽然已经
赢得3个总冠军,1个总决赛MVP,Parker却从未被看作是真正的超级巨星。今年他再次成
为了明星赛替补,被排在那些成功比他少,人气比他高的球星之后。也许因为Parker是外
国人,又或者是因为Parker的主队地处德州的一个小球市。
但也许这也是因为我们的资料统计无法展示一位球员在细枝末节处发挥的重要作用,过于
看重其他一些更容易量化的资料,比如篮板和命中数。
我们称赞Leonard的绝杀三分,毕竟他是投进这一球的人,但这一称赞的涵义和夸奖乔治
克隆尼在《地心引力》里演得不错差不了多少。(译者注:虽然是男主角,但克隆尼在《
地心引力》里只能算是“高级配角”。)
“我们练习了1000次这个战术,所以我知道大家一定能执行出来。”马刺主帅Popovich赛
后说。
把这句话应用到围棋上,应该就是说,致命一招之前的每一招都不容忽视,但我们实在过
于看重那最后一步。围棋一般不是靠某一步获胜的,篮球也是一样,结果并非靠最终一步
确定,所以像Parker或者Chris Paul这样的球员就总能有办法帮助自己的球队获胜。
在大资料时代,现在的资料系统——即统计表,简直就是个过时的打字机。虽然它的资料
仍然可靠,但却是为了印刷便利而生,并不能真正秀出现场上10位球员的价值。统计表曾
经发挥了巨大的作用,从Bill Russell的时代到Michael Jordan的时代再到LeBron James
的时代,而从它身上也衍生出了众多“高阶资料”和篮球资料分析的前身。
在过去几十年里,肯-波默罗伊、迪恩-奥利弗和约翰-霍林格都成功扮演了开拓者的角色
,他们研究资料单,创造出新的、电脑时代的资料统计模式。我们会在他们的研究基础上
前进,一切都在飞速发展。
* * * *
2013年的春季学期,塞尔翁和丹阿穆尔提出了一个新设想来评估NBA球员的价值。他们的
想法很简单,但所需要的电脑运算却很复杂。他们的思想核心是:
一个篮球进攻回合的每个“状态(state)”都是有其价值的,其价值的基础在与对入球
可能性的影响,以及这个回合进攻的可能得分(expected points)。普通的一个回合得
分大约在1分左右,每回合的可能得分是不断浮动的,浮动的结果则是由场上的每个“状
态”决定的。
他们同时也相信,利用追踪资料系统,我们能第一次计算出NBA一整个赛季里每一秒钟的
比赛价值。他们提议,如果我们建立模型,运算几个关键法则——比如球员的位置、个人
得分能力、持球者是谁、他的持球习惯、他在场上的位置等等,我们能够用新的资料统计
颠覆现有的价值评估系统。
换句话说,想象你在比赛中的任何时候按下了暂停键的情况。塞尔翁和丹阿穆尔的核心理
论就是,无论你在任何时候按下暂停键,我们有都资料能够算出当时的“预估进攻价值”
,简称EPV(expected possession value)。
比如说,LeBron在篮下持球而无人防守的情况吧,我们预估他能得到两分,而这时候他的
EPV就是接近2。又假如Dwight Howard在距离篮框40英尺处持球,他面前有3个防守者,而
进攻时间仅剩1秒,那么他得分的可能性就非常小,这时的EPV就接近为0。当然,大多数
时候,比赛不会出现这么极端的情况,但EPV的框架和运行原理就是这样。
这是理想的目标,而这一目标则催生了不少有价值的观点。
假如我们能计算任何比赛任何时刻的EPV,那么我们就有机会更加准确的量化球员表现,
可以第一次把引导传球、运球突破、包夹这些篮球术语资料化。我们可以更加准确地计算
对某些球队和球员怎样的挡拆防守最有效。对这些比赛基本动作的分析和提炼,我们可以
判断战术有用与否,球员执行战术的水平又有多高。
EPV最适合评估球员的进攻效率,它可以计算球员在一场比赛,一个客场旅行,甚至整个
赛季的所有进攻动作。我们可以用EPV分析成千上万的动作,并把它们归纳为一个数字,
评判出该球员的真正价值。这一数字就是比起另外的人选,该球员在场上能多贡献多少分
,这一统计可以被称为“EPV差值”或“分差(points-added)”。
让我们用EPV的视角重新研究Parker和Leonard配合的这一球。这一刻从骑士领先2分,比
赛还剩9秒开始,Parker启动进攻,这时的EPV为0.97。
在Duncan挡拆解放Parker后,Parker突破到中路时的EPV反而减小(因为有Zeller换防)
,但当他离篮框越来越近,EPV逐渐上升到了1.36。Parker的运球突破已经提升了本回合
的得分,但还没有结束。当他把球传给Leonard的时候,EPV才达到了1.75的峰值。当
Dion Waiters疯狂向外扑救,EPV降到了1.58,但他终归迟了一步。
分配延续不断的EPV(时间在不断流逝导致EPV为一条曲线)有多种方法。最简单的就是根
据形势变化分配,比如Parker最终的EPV得分为+0.78,因为他启动进攻时的EPV为0.97,
而传给Leonard时为1.75,0.78正是两个数字的差值。
假设一个没有传统资料统计的平行宇宙,只有EPV,那么Parker显然应该得到更多称赞。
但在现实的得分-助攻-篮板架构里,Leonard是被“印刷”出来的人。Youtube上关于这个
绝杀球的影片名称为“Kawhi Leonard的三分绝杀!”
* * * *
塞尔翁和丹阿穆尔从去年开始就着手建立EPV统计模型,他们借鉴了竞争风险模型(
competing risk model)的原理,这一模型常被用于生存分析(survival analysis),
评估死亡风险和这一风险随着时间的改变。塞尔翁认为这一模型也适用于篮球,把人类生
命的长度换成篮球进攻回合,造成死亡的各种原因也可以则导致每个回合不同的结果。
他们在2014年斯隆体育分析高峰会上把这一视角阐述成了一篇论文。“我们把‘死亡风险
’换成了球场上每个动作可能产生的不同结果。”塞尔翁解释道,“就像在论文中所说的
,这一模型评估了每场比赛每个瞬间的两个关键价值:
在定义上,现时EPV是此刻动作对于未来不同结果影响的评估。计算EPV需要一个能够给持
球者未来可能动作下定义的模型,把球员放进空间统计里,让我们了解此刻状态对未来结
果的影响。我们把这个模型叫做‘情境模型(possession model)’,运用马尔可夫假设
理论(Markovian assumption),这个模型可以让我们计算a、在某一情境球员做出某一
决定的可能;b、球员做出决定后该情境的EPV值。综合起来,我们可以得到任何回合里任
何情境的价值,也能对制造出这一价值的进攻体系进行评估。”
再拿上赛季马刺对雷霆的一场比赛进行说明(图)。Leonard在靠近弧顶处持球,模型预
估出接下来他的动作和EPV的变化。
假如你问这一模型最难的是什么,他很快会提到电脑运算。但他的观点对于进入大资料时
代的体育分析有极大的启发性。2012-13赛季,追踪资料系统一共记录了80,0000,0000次
球员位置移动。记住,这只是14支球队的资料,而本赛季所有球员都开始使用这一系统。
而追踪资料系统的数据库很快达到了930亿字节。
把这些字节全都塞进一个模型,塞尔翁和丹阿穆尔寻求了哈佛大学集群计算服务(
cluster computing service)器,即“奥德赛(译者注:Odyssey,以《荷马史诗》中的
人物命名)”的帮助。它竟然占用了500个增强功率型并行处理器2太字节(terabyte)
的内存。
想想我们过去使用的简单基本的资料统计,这样的新型资料令人思维颠覆,不管是对人脑
还是电脑。有多少NBA球队的员工理解什么叫“竞争风险模型”?更别说去建立和运用它
了。就算这个数字不是0,也会比较靠近0而不是30。
* * * *
2012-13赛季,全联盟EPV差值最高的球员为Chris Paul,场均数值为3.48。这是较为合理
的,大部分人都会把Paul看作是如今联盟的第一控卫。Parker的排名也很前面,EPV差值
为1.5,在所有327位达到统计资格的球员中排第20位。Ricky Rubio的-3.33是最低的。
“Paul的EPV差值为3.48的意义是,他的球队因为他在场每场能多得3.48分,就因为拿球
做决定的人是Paul,不是其他什么球员。”丹阿穆尔说。
“总体来说,那些善于运用自己的长处,比如得分,或者善于运用队友长处的人,得分会
非常高。”丹阿穆尔说,“假如一个球员某一出手比任何人的命中率都高(比如Nowitzki
的中投),或者能发挥出队友不寻常的天赋(能经常传球给Ray Allen投三分),那么他
的得分就容易是正值。但假如一般球员选择传球,而这位球员总要艰难出手,或者某个队
友的投篮命中率出奇的低的话,那么这位球员就可能得到负值(比如Rubio在Love手腕受
伤时的EPV差值)。”
但影响Rubio数值的主要原因还是他的投篮技术,在任何位置出手他都十分低效。他任何
出手的EPV都要比其他球员低,也处于这个原因,虽然Rubio其他方面能做出贡献,但EPV
模型贬低了他。
* * * *
EPV模型的主要贡献还有待观察,它的统计之路才刚刚开始,根本不可能对篮球统计起到
颠覆性的影响。但也许在未来,它会带给NBA一些新的应用价值。而现在,比起评估一个
球员的真正价值,EPV模型起码能带给人们新的视角去思索和计算NBA比赛,推动NBA和篮
球运动的进步。
多年来,我们都在讨论“高阶资料”,但那都不过是高阶一点的数学。别误会我,像“每
回合平均得分”,或者“PER值”这样的统计是有极大的价值和进步意义的,但我们要做
的还有很多。我们已经手握庞大的追踪系统,现在差的就是分析这些资料的技术。
不幸的是,计算需求加大,最好的资料分析系统越来越难以获得,留给我们实验的时间恐
怕不多了。
附:2012-13赛季EPV差值TOP10
Chris Paul:3.48
Dirk Nowitzki:2.60
Deron Williams:2.52
Stephen Curry:2.50
Jamal Crawford:2.50
Greivis Vasquez:2.46
LaMarcus Aldridge:2.40
Steve Nash:2.09
Wesley Matthews:2.06
Damian Lillard:1.95
2012-13赛季EPV差值倒数TOP10
Ricky Rubio:-3.33
Kevin Love:-2.38
Russell Westbrook:-2.07
Evan Turner:-1.90
Austin Rivers:-1.84
Rudy Gay:-1.75
Jrue Holiday:-1.51
Paul George:-1.49
Chris Singleton:-1.48
Roy Hibbert:-1.44
(注:由于2012-13赛季追踪系统未完全应用,只有Paul和LeBron James的客场资料被统
计进去。LeBron的总排名为23。)
作者: RodrigueZ810 (装小维)   2014-07-21 16:29:00
篮球这种动态比赛用这种数据比较能充分诠释
作者: encorej77107   2014-07-21 16:36:00
一球迷呢
作者: ghostforever (呃)   2014-07-21 17:10:00
这好屌 赞
作者: OCEANBOY7329 (海洋之梦)   2014-07-21 21:00:00
倒数一二名都在灰狼..难怪怎么打都进不了季后赛

Links booklink

Contact Us: admin [ a t ] ucptt.com