喔,这东西用"残留"的概念来讲会不太精确。正确地说应该是"和初期相比的变化量"
因为观众其实是会到处看而有新旧流动的。
它的定义是:当季去头(第一集)去尾(最后一集),去头尾的理由是避免新作第一集
的话题性,例如水星1集就用感应砲削人棍的惊喜感而引起话题去看的突兀量
如果播放到第10集,那就是(10+9) / (2+3)= 残留率
像水星这种有两季的半年番,那最后一集定义为24集,故12集的算法还是:
(12+11) / (2+3) ,但像是以前乌龙派出所的大于3季的长寿番这方法会失真故排除。
至于为何会执著除与第二集+第三集,可能是网站主的经验上认为,
第二集跟第三集比较能呈现第一话话题过去消风后,初期的实际平均观看人数吧。
正常你看一些代理商自己放水管的按赞数和观看数,你也会发现会随集数下降
是很常见的状态。所以他把它量化评估"该作品跟一开始比剩多少人看"
也不能说错,但也是有可能后来越来越多人看,那么这个变化量自然就会大于100%
好我知道一定会有人问:干这算法很奇怪为啥不是根据次前期来比?
比如说同样12集应该是:(12+11)/(10+9) 来比吧?
因为你要描述的统计量就会不一样,像这种算法就是我们做期货程式交易时
来算有钱人的法人们在净多单跟空单,在近几个礼拜的连续变化量。
正常用这方法算一定会有忽多忽少的噪声,但你要抓的多半是连续一直增加或减少
的"异常"讯号。不过这种讯号出现的机会不多啦,如果用这种方法排序比较
这种排法结果就很可能是把一堆噪声放在一起排名,完全没有意义。
至于大于三季的年番会改列为"长期剧组"而排除在外,我认为也是有道理啦
因为正常人连看乌龙派出所也不可能死忠到从第一集看到好几百集吧。
另一个问题就是如果他取样的样本太少,那么依照中央极限定律,
随机抽样样本的平样本均数之标准误差会是母体标准差除以样本数 n 的平方根,
故n小于一定数字下误差会开始扩大,而不足以代表你想要知道的母体统计特征。
(讲人话:数学会告诉你样本太少跑出来的结果,很可能误差会大到不具参考价值)
n要多少会取决于各学门的研究方法限制,如果是用统计抽样的,目前学界建议是
n最好要大于30,那套入公式算标准差就比较没有问题。
至于30以下要用不是不行,但你可能要比较的项目就要独立出来,
例如小众版本就只能跟小众比。或者干脆就缺乏样本数的小众作品。
所以要怎么解读这排行比较好呢:
https://ckworks.jp/animeradar/ranking/remain/202210/eplast
我个人认为是把它都是作为跟自己比,也就是:
这动画后来看的人跟一开始看的人比变多少人。
它可能会变多,也可能会变少。但要讲"大家都去看xxxx了"
由于你缺乏真的抽样统计不特定观众现在看啥动画的调查资料,
而用这排名来推论大家去看啥,统计上不见得是正确的。