[心得] 90000个UID样本分析(转载)

楼主: playplayying (Fei Fei)   2016-02-07 10:09:05
以下为转载内容
========================================================================
首先声明你不满意又提神魔大战的请你上一页
原文:http://home.gamer.com.tw/creationDetail.php?sn=3091987
已获屋主同意转贴
首先我个人是看了这篇之后 决定了作一个大测试
http://forum.gamer.com.tw/C.php?page=1&bsn=23805&snA=507543
用了差不多2天的时间收集大量uid的单双数据
结果如下:
http://truth.bahamut.com.tw/s01/201602/56f64ae4e9b8fb165fdf8edeefee10af.JPG
整合excel下载: https://drive.google.com/open?id=0B_iHq6425S9lemlqOGVCZW5uaFk
大致上其实就是双方人数差不多 不过的确是uid双数的人数稍稍高于单数的
根据数据就是双数>单数 0.85%
这0.85%主要由uid 10,000,000 - uid 99,999,999所提供 (占差异的 63.9%)
不过你可能会说这只不过是自然误差 不是真的相差0.85%
我稍作计算 假设两边机率均等 90000个样本做成0.85%的自然误差大约机率多少
用的工具是wolfram-alpha的binomial probabilities widget
http://www.wolframalpha.com/widgets/view.jsp?id=226badd3f3410155b258766cca6002ea
公式就不列了 有兴趣自己查cumulative binomial probabilities
http://truth.bahamut.com.tw/s01/201602/51fc05cafb689b27457433bc295f7b03.JPG
那代表自然误差做成0.85%或以上的机率为0.102042*2=0.204084 即20.4%左右 5次发生一

所以更大机率就是由uid尾数checksum的公式关系造成的0.85%差距
而留意上表也看得到 双>单的uid开头 比单>双的uid开头多
以上没说服力? 有可能我就是这么虽中了20.4%?
那最有说服力是checksum的理据在下面
数据最令人在意的是 uid 10,000,000至99,999,999这组
当中单双数据上有5%差异 10000个样本生成5%
那么双方机率均等下 10000个样本自然误差做成5%的机率是多少?
http://truth.bahamut.com.tw/s01/201602/eee6d27d0090bc9e35b31fca2110162e.JPG
机率均等下 做成5%或以上的自然误差的机率是0.75%*2=1.5% 很低机率了吧
所以尾数=checksum 只是大家还没反译到公式出来
也同时代表早期的checksum公式(uid 10,000,000至99,999,999区间)没考虑到单双人数分
配问题
亦即是说1000天的老玩家 双数的 可是比 单数的多5%
挨到1000天的 就算无课大部份也有一定能力
而单双人数最主要差距的来源就是在这1000天前的帐号
==============================================================================
至于套入神魔大战会怎样?
提醒 以下只是估算 只作参考 不喜勿喷
首先估算参与TGS玩家人数的可以参考这篇(留言比较重要) 我也懒得列式之类的了
http://forum.gamer.com.tw/Co.php?bsn=23805&sn=3015508
图我也没载 只能借用 所以先看那文跟留言吧
以下讨论的也在于这个图:
http://truth.bahamut.com.tw/s01/201602/5d2eb27c7fe04ef19f73d40fb47fb2cb.PNG
简单点说 就是这种分数就代表有70000个至37万个玩家参与
不算万名的话假设大约平均分26000(考虑不是万名的刷成就+大量1场玩家)
14万参与人数是比较可能的
根据统计结果做成0.85%差异的话
即是说 69704 vs 70296 (70296/69704=1.00849...)
即相差592人
那考虑该图情况 592人可以做成多少分差?
首100名 机率为 100/140000 平均分为假设200000
100-500名 机率为 400/140000 平均分为(139900+97800)/2=118500
500-1000名 机率为 500/140000 平均分为(97800+83600)/2=90700
1000-2000名 机率为 1000/140000 平均分为(83600+74200)/2=78900
2000-5000名 机率为 3000/140000 平均分为 (74200+64300)/2=69250
5000-8000名 机率为 3000/140000 平均分为 (64300+59900)/2=62100
8000-10000名 机率为2000/140000 平均分为 (59900+56100)/2=58000
10000名以外 机率为130000/140000 平均分为26000
592人分数的期望值= 592*[ (100/140000)*200000 + (400/140000)*118500 +
(500/140000)*90700 + (1000/140000)*78900 + (3000/140000)*69250 +
(3000/140000)*62100 + (2000/140000)*58000 + (130000/140000)*26000 = 592*29156
= 17260352
的确就算加上这分还是输
如果你有热身赛图 也试试这样算看看 我图都没载
但我想强调的是 正如上文所说
0.85%的差异主要来自uid 10,000,000 至 99,999,999的
这区间提供了63.9%的数据上的差异
这592人当中有60%左右的人是1000天的玩家机率不低
试问一个挨到1000天的老玩家 就算无课 可以差到去哪?
这组人真的平均只有26000-29156?
所以上面估计分差期望值只会更大
所以无可否认是不公平比赛
不过嘛 这些也只解释到热身赛
后面那几天就算有8%加乘都输的
只能说明“小部份”神族玩家因为前面不公平比赛输的关系 士气低落而放弃
随便一刀切两边人 又没有任何合理渠道鼓起士气 (巴哈 fb也只有一小撮玩家用)
如果有渠道还好 有向心力在还有机会反败为胜
MH真的不要搞这种活动了 雪球只会越滚越大 说真的 一面倒你赚到多少钱?
=============================================================================
有大大说要懒人包 我稍作尝试
1. 经90000个样本统计 uid尾数双数>单数 约有0.85%差异
2. 在uid 10,000,000至99,999,999 区间中 双数>单数的差异特别大 有5%
间接証明尾数=checksum
因为在数学上10000个样本均等机率下 5%误差是不太可能发生(约1.5%机率)
3. 其实uid双数多于单数的差异来源也同时在这个区间 占63.9%
即1000天左右的老玩家尾数双数比单数多
4. 不考虑上面老玩家问题 uid checksum设计至少做成1700万分差 如果加上老玩家问题
分差只会更多 所以本身就是不公平比赛
=============================================================================
(2016/2/6) 0952更新
其实我看完大家回复
在这里想强调一下这篇上面内容只是証明就算没误差存在
本身也会有的0.85%差异 还有老玩家人数差距
而老玩家会不会把这0.85%提升上至1%或以上的效果?
只要他们比全体平均分高17.6%就会这样
0.0085*1.176=0.01
亦即以上面那图为例 平均是26000-29156的话 1000天区间平均分是30588-34301就会发生
不过这的确只是属于猜想部份而已
而这0.85%是checksum公式问题带来单双机率不均等所做成的的“差异”
早期更是没考虑均分问题 因此差异特别大
其他因素或是无办法避免的自然误差亦没有列入考虑
另外我一直所说的自然误差所指的是 “无任何外在因素下、客观条件情况下自然产生的
误差”
例如就算你抛10万次硬币 两边机率虽均等 但也不能保证两边数据都是5万
当中这个差距就是自然误差
而这0.85%则是由外在因素“checksum公式”带来的
实际差多少不知道其实不知道 还要看有没有其他因素自然误差或是外在因素影响下的差

因为checksum公式 导致单/双机率不均等 不是50% vs 50%
而是49.788% vs 50.212% (50.212/49.788 = 1.0085)
那考虑一下自然误差可以做成多少变化
那140000人情况下 产生1.5%或以上的误差偏向双数那边的机率是多少?
先说一下 1.5%差异是 69479 vs 70521 ( 70521 / 69479=1.015)
http://truth.bahamut.com.tw/s01/201602/06665133f7c2d75f5566399189d3ab58.JPG
就11.6%机率 不高但还是有可能
而0.85%变成1.2%人数差距 则是26.11%机率
http://truth.bahamut.com.tw/s01/201602/38fbdbd3ef81fe28370a07b25b8e3011.JPG
而且我还不知道会不会有其他因素影响 有的话叠到上像热身赛2.7%亦不奇怪
这篇只是以uid分配角度看而已
至于后面的赛果 只能说明“小部份”神族玩家放弃
例如只要有6%以上玩家放弃 就算8%加乘也弥补不了分数差距 (1.08*0.9337...=1.0085)
所以我是特别强调是“小部份”
最后欢迎转载 加个来源就好的 谢谢
=============================================================================
来源:http://forum.gamer.com.tw/Co.php?bsn=23805&sn=3021936
作者: sy20   2015-02-07 10:09:00
end没有懒人包表示难过(?)。
作者: wlkb0000 (培)   2016-02-07 10:11:00
推一下
楼主: playplayying (Fei Fei)   2016-02-07 10:12:00
懒人包在内文中间XD
作者: iewix (多多喝水)   2016-02-07 10:13:00
先推再看
作者: KeGun (Mozet)   2016-02-07 10:13:00
先推 不然人家以为我不专业
作者: blueocean292 (蓝海)   2016-02-07 10:15:00
其实他中间也加了一堆自己的假设阿...而且还是根据
作者: Belieeve (芥末拿铁)   2016-02-07 10:15:00
嗯嗯…哦哦…原来是这样啊~跪求笨蛋也听得懂的翻译
作者: maggie531 (一起走吧~)   2016-02-07 10:15:00
我比较好奇他找的uid有没有确认是活人
作者: POCARI5566 (水德)   2016-02-07 10:16:00
不敢乱推文等等要被检举了
作者: blueocean292 (蓝海)   2016-02-07 10:16:00
最后胜负结果去解释 而不是数据
作者: a0922816358 (toyotaes0820)   2016-02-07 10:16:00
作者: opthr1215 (天天)   2016-02-07 10:17:00
如果最后一码真的是checksum......那MH也太没sense了。
作者: reallove (^.<)   2016-02-07 10:17:00
有心但一堆该用统计的地方没有
作者: mydarkfight (艾特)   2016-02-07 10:21:00
所以差了592人的结果就是一开场就先放592万分?
作者: angipan (光头)   2016-02-07 10:21:00
我完全看不懂崩溃啦= = 呜呜
楼主: playplayying (Fei Fei)   2016-02-07 10:25:00
其实所有结果没有用假设作为判断依据
作者: martian001 (幻之雪狐)   2016-02-07 10:27:00
我想叫MH弄个春节检讨作业比较实在
作者: yo0401 (羽无伦)   2016-02-07 10:31:00
你统计系?
作者: xup6ru0454 (XUP6RU0454)   2016-02-07 10:32:00
他不一定认为他们有错啊,开检讨会不久承认有错...
作者: kurtsgm   2016-02-07 10:32:00
@opthr 最后一码是checksum是很早就确定的事情囉...
作者: wlkb0000 (培)   2016-02-07 10:32:00
checksum早就是肯定的,至少这篇看起来比之前的好多了XD
作者: kurtsgm   2016-02-07 10:33:00
只是没有人有办法提出公式而已
作者: online135 (98分美元宇宙星尘)   2016-02-07 10:35:00
不用想那么多 只有一个重点 这是自然误差
作者: CenaSucks (我不怕J条蛇)   2016-02-07 10:35:00
过年了啦
作者: martian001 (幻之雪狐)   2016-02-07 10:37:00
他这篇的意思是说超过1000天的老玩家分数冲比较高吗?
作者: kurtsgm   2016-02-07 10:38:00
这其实也有盲点 早期ID活下来的比例可能更低啊...我看我周围的ID几乎都是挂小茉莉三星西方兽之类的 (默)
作者: pujos (lks)   2016-02-07 10:38:00
这篇逻辑超烂他的假设误差大到根本没办法估算
作者: Kevinshiau (潘安再世)   2016-02-07 10:42:00
好啦你赢惹
作者: ricky469rick (龙龙)   2016-02-07 10:45:00
事情都过去了就莫再提了 懒人包就是不公平 请改进
作者: yaya0228 (扬哥)   2016-02-07 10:48:00
这篇会让我一直闪退Ptt
作者: sna8d (sna8d)   2016-02-07 10:50:00
版主快拉封锁线 神魔大战又要来啦!!!!!!
作者: Lyu9 (律)   2016-02-07 10:51:00
真的很猛耶
作者: evanade (二萌)   2016-02-07 10:52:00
楼上你的app过时了该换了
作者: qw30404224 (κ℅)   2016-02-07 10:52:00
自然误差的意思是今天如果是神族人多也未必意外囉?
作者: usb30 (随插即拔)   2016-02-07 10:55:00
其实不论你的算法对不对 疯头让两边差距悬殊就是跟愚蠢的做法
作者: wlkb0000 (培)   2016-02-07 10:55:00
我是觉得这篇看前半部就好了,后面分析的地方就..www
作者: usb30 (随插即拔)   2016-02-07 10:56:00
只有战况胶着才会开始疯狂课石
作者: pujos (lks)   2016-02-07 11:01:00
这篇可以吐槽的点太多了d4-d5扣掉加成神族约多了6亿,假设他推论放弃为真,代表这六亿是由拼前万的人贡献出来的,也不用假设太多人,估神一万人拼前万就好,等于每人得多打六万分,随便加上D4底6.8万,计12.8万分,光神族就该卡满前万名了,如果假设的拼万名神族玩家更少,那积分数字只会更夸张神族拼万的也没有一万个号,我想那几天的积分走势够明显了
作者: wlkb0000 (培)   2016-02-07 11:08:00
就看他抓单双数UID的数据就好,其他分析和结论都很多洞
作者: lovexx291 (你还没有设定暱称)   2016-02-07 11:09:00
随便啦游戏而已这么认真
作者: pujos (lks)   2016-02-07 11:10:00
数据那个,我严重怀疑是抽样误差导致从结果倒推,没有理由任何两边号差距在2%
作者: wlkb0000 (培)   2016-02-07 11:12:00
还有活人帐号数的影响,哪来的没任何理由XD
作者: pujos (lks)   2016-02-07 11:12:00
抽出一个很不合理的数据,除非你有把握能解释,不然要拿那个说服人,我看...
作者: wlkb0000 (培)   2016-02-07 11:13:00
至少90000个数据比之前100个数据就要丢出来好多啦XD所以我说看原始数据自己解读就好,这篇的结论和推轮都很难让人认同
作者: pujos (lks)   2016-02-07 11:14:00
当数量够多时,弃坑活帐与否不会因为是单双而有显著差异那些很不合理的假设,从开始就不该用
作者: arrfu (观光客)   2016-02-07 11:15:00
懒得看~证据呢?
作者: wlkb0000 (培)   2016-02-07 11:16:00
两个部分都刚好双数的时候,差距就会比较显著了^偏向不过这篇聚焦在八码ID,我是还蛮莫名的,先不提阵亡率光是人口数就和九码ID差了九倍XD
作者: pujos (lks)   2016-02-07 11:21:00
其实这篇连id分布都没找出来吧
作者: d8731400   2016-02-07 11:22:00
屙 不是应该要看活人数吗?
作者: pujos (lks)   2016-02-07 11:22:00
神魔那可能有九位号存在,不管是不是活帐你随便打,还一堆空号...找出来有号的明码缺1%,搞不好,直接缺号的有10%-..
作者: wlkb0000 (培)   2016-02-07 11:24:00
空号就是尾码造成的而已吧,流水号从倒数第二码开始看
作者: pujos (lks)   2016-02-07 11:24:00
连这点都没找出号序分布规律,抽样其实也没什么意义
作者: amigo30143 (小四)   2016-02-07 11:30:00
90000万个UID 不只有单双数问题 还有分身= = 如果主帐魔 副帐神的 他当然只打主帐 但神帐号却仍然占1人数
作者: blueocean292 (蓝海)   2016-02-07 11:32:00
A大九万万是九亿耶....神魔有那么多玩家?
作者: amigo30143 (小四)   2016-02-07 11:32:00
多打"万" 本来要打九万 忘记删
作者: kevin810 ( K )   2016-02-07 11:38:00
那种特殊情况不能特别考虑,大数据时,主帐是神族分身是魔族的情况也有
作者: loking (J)   2016-02-07 11:39:00
简单的说 就是拿一堆大部分没在玩的id 推出现在单双比例
作者: laikyo (六元)   2016-02-07 11:51:00
没什么意思,分类规则MH定的
作者: missaturn123 (郑饱饱)   2016-02-07 11:59:00
推...
作者: kobewlps (Kobe)   2016-02-07 12:20:00
能做的检定太多但都没做,但有实际行动纪录数据给推!
作者: encoreg10917 (Salen)   2016-02-07 12:32:00
看不懂 哭哭
作者: somebody1025 (火哥)   2016-02-07 12:41:00
不然官方要怎么分成两派,怎么分都会有人有意见吧
作者: brian980466 (brian)   2016-02-07 12:41:00
懒人包:机制大有问题
作者: nl0052002 (LiMgCuLiZn)   2016-02-07 12:41:00
统计推
作者: nohair (老同乡)   2016-02-07 12:48:00
跟我想的一样,完全可以理解。 (才怪)
作者: kimisawa (杨)   2016-02-07 12:51:00
这篇假设性太多了
作者: anonova (anonova)   2016-02-07 12:56:00
懒人包:有问题的不是单双数的帐号总数,是单双数的活跃人数
作者: chainlu (第三球来了!!!)   2016-02-07 13:09:00
可是我认识两个千日玩家都是打ㄧ场就收工了
作者: silstone (151354)   2016-02-07 13:10:00
帐号会不会存活下来 很重要的一个因素是首抽
作者: GetQ ( )   2016-02-07 13:19:00
认识的两个人 是有什么代表性?
作者: xinsunzhong (XZ)   2016-02-07 13:25:00
6x老玩家没什么嗑第一天要7万后面一场收推研究精神
作者: Bensonoc (Bensonoc)   2016-02-07 13:32:00
原来是这样
作者: lazycat5 (phoenix)   2016-02-07 13:48:00
统计实验~~太可怕了
作者: mutwilly (Willy)   2016-02-07 13:51:00
我当初也是这样认为......果然没错
作者: ghjkl1478 (kiki)   2016-02-07 13:53:00
我有问题 就算有0.85%的差距 若双方能力差不多 那第一天了不起就输个1 2% 随着隔天的加成不就追回了
作者: kevin810 ( K )   2016-02-07 14:00:00
千日uid不等于千日玩家,那时候已经流行刷首抽了,还有一堆是分身和弃帐了
作者: abellea85209 (阿比利亚)   2016-02-07 14:04:00
总之就是不公平 反正mh也不理你 没用了
作者: kurtsgm   2016-02-07 14:09:00
这种差距的情况下 大家都只关心自己的一万名吧...
作者: xeobonm5 (DEDELO)   2016-02-07 14:11:00
人数的多寡与刷的意愿又没有相关
作者: juredream (一堆事 = 烦)   2016-02-07 14:16:00
推认真统计
作者: NovaDust (No挖打死)   2016-02-07 14:18:00
下次来个三国鼎立好了 (拖走
作者: daniel50506 (达)   2016-02-07 14:27:00
我如果报告这要作 我一定被定到墙上烂掉
作者: mayday005 (chasedream)   2016-02-07 14:41:00
作者: kevin810 ( K )   2016-02-07 14:42:00
前面说,光是千日玩家的差异就无法逆转,这个论点成立是要站在千日uid存活率跟后面加入的人一样吧。
作者: ggininde5566 (GG硬硬der)   2016-02-07 15:40:00
跟我想得差不多给推
作者: d89818 (SheepFat)   2016-02-07 15:41:00
结论:MH还是别再搞这招了。
作者: npc776 (二次元居民)   2016-02-07 15:45:00
我老屁股 但是我只打出第二成就门槛然后跟我同时玩的绝大多数都已弃坑 千日以上玩家活人不多
作者: freeQoo (好好仁)   2016-02-07 15:48:00
npc 打lol啦
作者: Jayson21128 (劫森自爱)   2016-02-07 15:51:00
分两边跟龙刻作奖赏就是糟糕 个人赏不是皆大欢喜
作者: craig100 (忘了了不了)   2016-02-07 16:01:00
认真说 这篇逻辑很差 至少虚无假说和对立假说先列出来吧不然在算什么都不知道
作者: arrfu (观光客)   2016-02-07 16:32:00
1分墨水分 不能再多了
作者: bendna22 (尻男子)   2016-02-07 16:53:00
先推 不然别人以为我看不懂
作者: yangnana (娜娜)   2016-02-07 16:55:00
快推 不然人家以为我看不懂
作者: Rindou (雨宫林道)   2016-02-07 16:56:00
虽然看得懂 不过还是推你耐心跟勇气
作者: aoiaoi (苍井葵)   2016-02-07 17:08:00
千日玩家占总玩家人数根本很少 还有热情拼更是微乎其微
作者: wahaha2005 (我是谁2005)   2016-02-07 17:27:00
意义上接近0的文章
作者: ziba0856 (hachi247)   2016-02-07 17:41:00
推的都是看不懂的人?
作者: newiwgp (..??)   2016-02-07 17:43:00
简单说就是神魔UID的单双数 比例是不完全相同的 双数的比单数多 其他部分感觉假设性太高了像认为UID 10,000,000-99,999,999这段 是决胜的主因 (双数多了单数5%) 多5%还好 决胜感觉就太猜测性而UID单双数 的比例不同是因为UID产生的方式非是连号 尾码部份当(也许不止)当ID CHECKSUM
作者: k220914   2016-02-07 17:53:00
推一个
作者: sexycute (鲁龙)   2016-02-07 20:07:00
我恨统计学...
作者: ttt95217 (略)   2016-02-07 21:57:00
谢谢大大让我有神魔玩(?)
作者: bf (逼爱抚)   2016-02-07 23:09:00
魔族就是爽啦!!! 魔术方块龙刻超好用
作者: ryan100100 (虫的传人)   2016-02-08 15:16:00
多少人裤子不见了
楼主: playplayying (Fei Fei)   2016-02-09 11:54:00
作者在小屋 有更新

Links booklink

Contact Us: admin [ a t ] ucptt.com