[分析] 用 100 万颗球训练 AI,找出最难打的球

楼主: hibob (Bob)   2026-06-24 13:59:54
棒球数据圈有个指标叫 Stuff+,用球速、转速、进垒位移、与自身
速球的反差等物理数据,评投手的“球威”(stuff)。
这次我们用公开 Statcast 资料、近 100 万颗球,训练一个梯度
提升(AI)模型自己学“什么样的球难打”,看能不能重现。
验证:模型分数对“整季实际被打 xwOBA”,先发相关 r=-0.46
(负号代表方向正确:球质越高、越难打)
模型最看重的特征:球速第一,其次是垂直位移、水平位移、与
速球的速差。
它发现的祕密:球速不是“越快越好”这么线性,而是 ~95 mph
像一道门槛——90 到 94 只是缓升,过了 95 难打度才暴增。这
也是为什么近年大联盟疯狂追速,差那 1~2 mph 就是两个世界。
接着用 SHAP(逐颗球拆解模型判断)选出全联盟最难打的五颗球
(模型评顶 + 实际 xwOBA 也最低),并标出每颗靠什么:
1. Mason Miller (教士) 滑球 88,招牌:速差+水平位移, .142
2. Anthony Bender (马林鱼) 横扫 84,招牌:大横扫, .196
3. Aroldis Chapman (红袜) 伸卡 99,招牌:球速, .201
4. Misiorowski (酿酒人) 四缝线 100,招牌:球速+延伸, .256
5. Alex Vesia (道奇) 滑球 85,招牌:出手臂角, .261
从上述的球可看出:
a. 两颗纯靠速度(Chapman 99 伸卡、Misiorowski 100 四缝线)。
b. 三颗靠形状(位移、出手角度),不必快也能很难打。
c. Vesia 最特别——他的“出手臂角”在全联盟平均重要度只排
第 9、不起眼,但 SHAP 逐球一看,它正是让他难打的关键。
完整图表(特征重要度、95mph 曲线、五球履历):
playcall.tv/lab/stuff-model-upgrade
资料:Baseball Savant (Statcast)。非官方、与 MLB 无关。
作者: abc0922001 (中士abc)   2026-06-24 16:04:00

Links booklink

Contact Us: admin [ a t ] ucptt.com