Re: [新闻] 独家/根本在误导判断!数学名师呛:游

楼主: raiderho (冷颜冷雨)   2023-01-14 17:35:35
一些背景说明:
(1)
我没玩过这个游戏,
不知道游戏合成/抽卡有无保底机制或机率随次数递增的机制,
还是永远设定成 10%.
若是后者, 就是非常单纯的二项分配,
当然很容易算出 227 或 175 次合成有成功多少次的次数。
但是, 很多游戏有机率随次数递增的机制, 这样就不好算了,
用模拟 (其实抽卡就是一种模拟) 配合统计推断来判定是很合理的。
用一般方法对付简单的特殊问题并没有什么过错,
毋须纠结在此.
(2)
关于机率解释:
(i) 抽卡人那么多, 有人刚好很衰的机率.
(ii) 指定一个特定人物 (丁特), 他刚好很衰的机率".
这两个是不一样的.
(i) 机率当然比较大, (ii) 机率当然比较小,
而无论以直播情境还是对自己有利的情境, 丁特都可以根据 (ii),
当然游戏公司可以主张 (i).
但是, 对于前者 (i), 游戏公司也站不住脚...
我们不知道丁特抽多少次, 为简化起见,
用游戏公司宣称的机率 q = 0.1 计算,
那么, 在 (ii) 情境中, 175 中 4 次或以下的机率, 只有
\sum_{k=0}^4 {175 \choose k} q^k * (1-q)^{175-k}
这个机率大约是 7.04 * 10^{-5}, 十万分之七,
对任何指定的人来说, 这数字很小.
然而, 假如台湾有 100 万人 (高估) 在玩并且合成 175 次,
在 (i) 情境下, 这么衰的人几乎一定会出现,
(但那是不指定特定人物的情境, 和丁特的实况情境不一样.)
另一种情况, 300 中 7 次或以下的机率, 只有
\sum_{k=0}^7 {300 \choose k} q^k * (1-q)^{300-k}
这个机率大约是 2*10^{-7},
若游戏公司所言为真, 特定人物直播两次, 都那么衰的情境, 肯定不可能发生.
扩大到全游戏玩家呢?
这里我们简化计算, 并对游戏公司宽容一点,
底下的机率应该是最大的:
"假设机率为 0.1, 有 100 万人合成 475 次, 当中有人中 11 次或以下的机率"
先说任何一个特定人那么衰的机率是
\sum_{k=0}^11 {475 \choose k} q^k * (1-q)^{475-k} < 4.6*10^{-11}
记这个数值为 r, r 不到千亿分之五, 非常小.
那么, 全体游戏玩家中, 至少有一个人哪么衰的机率不超过
1 - (1 - r)^{10^6} <= 10^6 * r = 4.6*10^{-5}
这机率非常非常小.
在 (i) 的情境,
这种事情发生的可能性也不到十万分之五,
游戏公司根本站不住脚.
最后, 我们上面算的是
"给定虚无假设下, 这个出像或更极端情境发生的机率"
这个就是 p-value 的定义.
当然, 我们这里没有严格说明显著水准 \alpha 是什么,
但是无论是十万分之七, 千万分之二, 千亿分之五, 十万分之五,
都会低于我们通常使用的 \alpha (采严格标准 0.01 好了),
所以, 根据假设检定的精神,
我们会拒绝虚无假设, 判定游戏公司主张为假.
最后, 就这篇报导回一下.
我没有兴趣比对李祥的原始说法, 这里仅转述记者的报导.
※ 引述《lupin2401 (七巧寒璃)》之铭言:
: “游戏橘子”因紫布事件向知名实况主“丁特”提起民事诉讼,指称丁特侵害其名誉和信用
: ,在双方对簿公堂第2次后,数学名师“李祥”除了再次计算事件的发生机率,也接受《三
: 立新闻网》专访,点出游戏橘子声称“227次和175次是小样本”根本在误导判断,直言“游
: 戏橘子的律师数学该重修了”。
重点不是在 227 / 175 是大样本还是小样本,
而是这个样本数量已经足够我们做统计推断.
李祥的说法不够精确, 但他在此可能只是回应游戏公司的辩解, 不用深究.
: 第一次直播,丁特合成紫布(《天堂M》虚拟宝物)175次仅成功4次,第二次直播则是300次
: 成功7次,共计475次成功11次。这样的结果让丁特开始质疑韩国原厂在记者会上脱口的“所
: 有制作、抽卡机率与台湾相同”是否属实,不料却遭游戏橘子送上被告席,指称丁特侵害其
: 名誉和信用。
: 事件起初,李祥老师以175次成功4次的样本进行“假设检定”计算,整面黑板的算式和图表
: 证实10%的机率在被拒绝的区间,并写下“有足够证据去推论游戏中奖机率<0.1”的结论。
: 该次计算在显著水准α=0.05的情况下,判断系统所提供的10%的机率是否正确,以这175次
: 的测试结果来说,发现无论系统提供的是10%还是5%的机率“均在拒绝区域内”,故推论系
: 统标示有极高的机率是错误的。
以上我认为没有问题.
先前计算是就系统提供 10% 来看,
假如合成机率是 5%, 情境 (ii) 的三种 p-value 会变成
0.05940 (特定人物某次直播合成 175 次, 只成功 4 次或更少),
0.01597 (特定人物某次直播合成 300 次, 只成功 7 次或更少),
0.00241 (特定人物某次直播合成 475 次, 只成功 11 次或更少),
后面两个数值会小于通常认定的 \alpha = 0.01.
然而, 这不是太小众的游戏,
上面的机率都不够小, 情境 (i) 这么衰的人肯定会出现.
只是在丁特的例子就是情境 (ii).
: 李祥老师强调,相对次数机率为大数法则,实验次数越多,越能接近系统机率,虽然相关文
: 献并没有严谨的数理证明能够判断“多少以上为大样本,多少以下为小样本”,但游戏橘子
: 却直接指证“227次与175次是小样本”,实乃误导判断。
: 无论系统机率为何种分配,根据中央极限定理,当“样本数达到30或50以上”时,分配皆会
: 接近常态分配,则机率实验与数学计算皆是在假设系统为常态分配下实施,李祥老师认为并
: 无不妥。
这里不妥之处有两点:
(1)
中央极限定理是用在抽样的 "均值" 分配, 好习惯是把统计量说清楚.
(2) 中央极限定理并没有说样本达到 30 或 50 以上
这已经是积非成是. 中央极限定理只是说,
独立抽样的样本越来越大, 样本的均值分配 (经标准化后) 渐近于 (标准) 常态分配.
用简单的模拟就可以看出, 就算 n 很大 (例如 n = 500)
就连简单的二项分配,
https://www.youtube.com/watch?v=WYybcCXm2YE&t=1370s
其均值分配也未必 "看起来像" 常态分配.
实务上, 中央极限定理常常是统计推断的判断依据,
样本数越少,
统计推断越粗糙 (信赖区间越大, p-value 越大, 越不容易拒绝虚无假设),
仅此而已, 并非无法做什么事.
"样本数多少合宜" 并没有一定标准,
是要看你根据什么假设, 以及这些样本的哪些统计量做什么统计推断.
而只要有抽样, 就算很少的样本已经可以做一些有趣的估计.
例如, 就算只从母体独立抽 5 个样本,
已经可以推断:
母体的中位数, 已经有93.75% 的机率会落在这 5 个样本的最大最小值之间.
(1 - (1/2)^5*2 = 0.9375.)
: 他直言,重点不是做过几次实验,而是实验的样本数,样本数只要够大,做一次就够了,样
: 本数很小,做多少次都一样。
这里也非常不妥. 李祥说的应该只是 "小样本的均值分配" 可能很不像常态分配,
但是我前面说了, 样本小固然很容易不像, 样本大也可能不像,
像不像只是一种视觉标准, 实际上要看怎么使用资料, 怎么做统计推断.
分三点来说:
(1) 你可以每次实验只抽一个样本, 样本数已经是最小的 1 吧,
做 475 次实验, 还是可以用中央极限定理,
因为每次实验每次抽样都是同样母体的独立抽样.
(2) 我们前面计算合并 "175 中 4" 和 "300 中 7" 得到 "475 中 11",
其实是一种加权算法, 能这样算大家也都觉得没什么不行,
实际上也是合理的, 理由同 (1).
(3) 实务上很多情境, 例如特别是医学研究, 其样本数很可能非常少 (常常不到20),
纵然如此, 单一研究还是可以做出一些推断, 只要效果够强, 可以拒绝虚无假设.
(虽然信赖区间很宽, 但足够偏, 会让虚无假设的值不再里面.)
而学术社群也经常使用 meta analysis,
可以综合一堆独立的小样本研究做出更强的推断.
但这里涉及的不只是中央极限定理,
也不只是传统假设检定的观点,
例如贝氏学派就很适合做这类探讨.
: 如同前段所述,虽然没有相关文献能明确指出大样本和小样本的定义,但所有的大专统计学
: 课本,甚至是国家考试的题目,皆遵循“样本数30或50以上可视为大样本”的原则,比起随
: 口说说的巨大规模次数与小规模次数的主观认定,他笑称“游戏橘子的律师数学该重修了”
: 。
李祥对中央极限定理的认知、以及很多统计观念都需要修正.
: 5.完整新闻连结 (或短网址)
: https://reurl.cc/NGeL2e
: 6.备注:
: 法官知道中央极限定理吗?
另外, 不要以为法官都是法匠,
1968年的美国法官的判例:
https://www.facebook.com/story.php?story_fbid=317036887094067&id=100063632744026
这里的逻辑和数学分析打趴大多数人。

Links booklink

Contact Us: admin [ a t ] ucptt.com