※ [本文转录自 Gossiping 看板 #1RuSUvES ]
作者: clothg34569 (提拉米苏冰淇淋) 看板: Gossiping
标题: [爆卦] 异常爆文分析器V1.2_新增推文ID统计
时间: Wed Nov 7 00:56:23 2018
一样,东西放在GIT
https://github.com/Daniel34569/PTTCrawler
然后使用方式和介绍前面两篇有了就不赘述:
https://www.ptt.cc/bbs/Gossiping/M.1541499806.A.EB8.html
https://www.ptt.cc/bbs/Gossiping/M.1541510766.A.2BE.html
首先这次改版主要是新增了ID统计功能
简单来说,异常爆文中(定义看前篇),N推内的ID会被记录起来,N为自定义参数
再跑完目标范围(可以为指定篇数,EX:770000~780000;或者特定ID发的文)之后
会统计出每个ID的出现频率
如果要找网军的话,我是建议可以搭配之前那个i'Analyseur使用效果更好XD
另外也建议要翻一下那篇文章中特定ID发了什么言再比对
不过共通盲点应该是找不出政治废人和网军的差别
接下来会以Soyud12和Kingkingcold的发文当作范围来作为范例
使用这两个的原因是,刚好两个不同立场,而且都有大量爆文可以作为分析使用
不得不说,八卦版真的是练习资料分析的好地方,八十万笔公开资料可以使用
格式又很整齐漂亮
首先是Soyud12
参数与运行结果(因为只有11篇所就全贴了)
这次参数门槛为,第25篇推文与发文间隔<10分钟...
虽然Soyud的就算用5分钟也只会少一篇
https://i.imgur.com/XApSb4B.png
符合设定门槛的10篇的前25则推文,总共250则推文
其中的每个ID推文次数
https://i.imgur.com/CRayU9A.png
前50则推文,共500则
每个ID推文次数
https://i.imgur.com/lZfHNLK.png
再来是KKC
参数同Soyud12
https://i.imgur.com/8vTkNB2.png
撷取前25则推文
只有一张的原因是因为KKC两百多篇,跑两次好累= =
结论:
其实单从这个结果来看,我会认为KKC的文章似乎比较少受到网军影响
而且他过门槛的比例也低很多(191篇中81篇过)
然后重复ID推文数也少很多
而Soyud12,我觉得已经可以接近网军分析的范本了
虽然Vner那个更夸张,但是Vner发文量太少所以就分析Soyud12的
14篇文章中,11篇文为爆文(剩下三篇非政治),其中10篇过门槛
甚至有9篇过5分钟的门槛
然后重复ID推文比例,10篇中可以和KKC 81篇相比
就我自己而言,我觉得这是意外的机率有点低啦
应该可以合理推测,这是网军的机率还蛮高的
PS:rorobus我不知道是政治狂热还是网军