※ [本文转录自 Elephants 看板 #1NOkj0v2 ]
作者: KDDKDD (KDD) 看板: Elephants
标题: [分享] 简介数据
时间: Fri Jun 17 02:09:01 2016
前言
因为不少朋友反应想了解更多关于数据介绍,因此这篇将主要介绍常见棒球统计
数据名词(中职能算的)、公式或概念。本篇将分成以下架构介绍:
(1) 如何解读数据、常见数据概念。
(2) 个别介绍每一项数据,并尽可能附上算法和概念。
如何解读数据
传统数据多多少少存在一些盲点,例如主观因素过重、比重不均、分析层面过于
粗略。为了解决这些问题出现了不少进阶数据,大致上解读数据可分以下几个想法:
(1) 累积型数据和平均型数据有所不同。累积型数据是指球员上场时间愈多成绩愈有
利,例如张正伟在2015年击出140只安打,这当然得有足够上场时间才能达成;
而平均型数据是指将累绩数据做进一步处理,例如张正伟2015年打击率0.335,经
过处理后的数据在样本数足够下才能一起比较,例如2015年张正伟打击率0.335,
王胜伟0.291。
(2) 样本数是否足够。当样本数过小时,数据容易失真或变动性过大,因此大多数数
据均要求一定量的样本数,对于样本要求各方标准不一,常见的是打者要求平均
每场3.1个打数,投手要求每场一局。若样本数不足时,建议看基础数据表现即可
或另取合理门槛。
(3) 进阶数据大多是经过回归分析而得到公式,其资料来源多数是以MLB过去资料为母
样本做分析,虽然不一定完全适用在中职上,但多数数据具有一定参考性。
(4) 进阶数据重视组距大于数字大小。这是解读进阶数据时大多数人的迷思,例如A球
员XR/27是6.12,B球员是6.37,解謮上会认为A和B球员是同一个等级,而不会说B
球员比A球员好,原因如同(3)所述,公式系数多数是经由回归得到的数字,只要
稍微改变一下变因就可能改变系数,因此以数字大小决定强弱是没有意义。
(5) 部份进阶数据是跟联盟平均或底层球员做比较,例如WAR、WS等等。
(6) 多数进阶数据数字愈高等级愈好,但也有少数数据是数字愈少愈好,通常以+号
表示前项,以-号表示后项。
(7) 贡献值和能力值并不相同。贡献值是指实际上球员提供多少成绩给球队,偏向结
论性质,通常上场时间愈多球员愈有机会提供更多贡献值;能力值较具预测性,
偏向理论性质,实务上可能因受伤、被其他球员卡位等因素而无足够时间和空间
,导致具高能力值选手却无法提供高贡献值。
(8) 虽然大多数进阶数据会尽可能去除(降低)主观因素,但仍然有可能会有缺陷,
评断球员前建议多观察几项数据。