Fw: [分享] 简介数据(一)

楼主: KDDKDD (KDD)   2016-06-17 02:30:27
※ [本文转录自 Elephants 看板 #1NOkj0v2 ]
作者: KDDKDD (KDD) 看板: Elephants
标题: [分享] 简介数据
时间: Fri Jun 17 02:09:01 2016
前言
  因为不少朋友反应想了解更多关于数据介绍,因此这篇将主要介绍常见棒球统计
数据名词(中职能算的)、公式或概念。本篇将分成以下架构介绍:
(1) 如何解读数据、常见数据概念。
(2) 个别介绍每一项数据,并尽可能附上算法和概念。
如何解读数据
  传统数据多多少少存在一些盲点,例如主观因素过重、比重不均、分析层面过于
粗略。为了解决这些问题出现了不少进阶数据,大致上解读数据可分以下几个想法:
(1) 累积型数据和平均型数据有所不同。累积型数据是指球员上场时间愈多成绩愈有
利,例如张正伟在2015年击出140只安打,这当然得有足够上场时间才能达成;
而平均型数据是指将累绩数据做进一步处理,例如张正伟2015年打击率0.335,经
过处理后的数据在样本数足够下才能一起比较,例如2015年张正伟打击率0.335,
王胜伟0.291。
(2) 样本数是否足够。当样本数过小时,数据容易失真或变动性过大,因此大多数数
据均要求一定量的样本数,对于样本要求各方标准不一,常见的是打者要求平均
每场3.1个打数,投手要求每场一局。若样本数不足时,建议看基础数据表现即可
或另取合理门槛。
(3) 进阶数据大多是经过回归分析而得到公式,其资料来源多数是以MLB过去资料为母
样本做分析,虽然不一定完全适用在中职上,但多数数据具有一定参考性。
(4) 进阶数据重视组距大于数字大小。这是解读进阶数据时大多数人的迷思,例如A球
员XR/27是6.12,B球员是6.37,解謮上会认为A和B球员是同一个等级,而不会说B
球员比A球员好,原因如同(3)所述,公式系数多数是经由回归得到的数字,只要
稍微改变一下变因就可能改变系数,因此以数字大小决定强弱是没有意义。
(5) 部份进阶数据是跟联盟平均或底层球员做比较,例如WAR、WS等等。
(6) 多数进阶数据数字愈高等级愈好,但也有少数数据是数字愈少愈好,通常以+号
表示前项,以-号表示后项。
(7) 贡献值和能力值并不相同。贡献值是指实际上球员提供多少成绩给球队,偏向结
论性质,通常上场时间愈多球员愈有机会提供更多贡献值;能力值较具预测性,
偏向理论性质,实务上可能因受伤、被其他球员卡位等因素而无足够时间和空间
,导致具高能力值选手却无法提供高贡献值。
(8) 虽然大多数进阶数据会尽可能去除(降低)主观因素,但仍然有可能会有缺陷,
评断球员前建议多观察几项数据。
作者: lakersPOYU (poyu)   2016-06-17 02:34:00
作者: bear32147 (dogbear)   2016-06-17 02:37:00
作者: supersars (綠豆加薏仁)   2016-06-17 02:40:00
里面不要有王胜伟,因为这不是爪板
作者: ji31g42go61 (谁是我)   2016-06-17 02:42:00
觉得像一种取舍:简单易得或是考量周到。
作者: ararthur   2016-06-17 02:42:00
作者: ft090646   2016-06-17 02:52:00
里面要有谁关你啥事 ZZZZZZZZZZZZZZZZZZZZZ
楼主: KDDKDD (KDD)   2016-06-17 02:53:00
别吵架 重要的是分享
作者: kano2525 (斗六高国辉)   2016-06-17 03:09:00
刚考完统计学期末考,看到这篇头有点痛
作者: indium111 (#ttyhg)   2016-06-17 06:02:00
推,不过半夜转这种文章来是不会有太多人看的
作者: allenlee6710 (猫抓板!!!)   2016-06-17 06:55:00
不是张正伟吗? XDD
作者: cuteyo921124 (cuteyo921124)   2016-06-17 08:54:00
喵迷这也要崩溃XDDD

Links booklink

Contact Us: admin [ a t ] ucptt.com