※ [本文转录自 Gossiping 看板 #1RuMkUwu ]
作者: clothg34569 (提拉米苏冰淇淋) 看板: Gossiping
标题: [爆卦] 异常爆文分析器V1.0
时间: Tue Nov 6 18:23:22 2018
大家安安,八卦板首PO,如果有违反板规麻烦告知一下,我再修改
0.前言:
就,最近想说拿八卦版来玩玩爬虫,又看到一堆人说八卦有异常爆文的情形
所以就写了个异常爆文分析器来当练习
1.介绍:
先上GIT,Code和Readme都放在这了
https://github.com/Daniel34569/PTTCrawler
首先我们先定义一下异常爆文
我先定义为:在短时间内有不合常理大量推文的就算
至于时间多短,大量是多大量就因人而异,因此都当作输入的参数
2.使用套件:
我是使用Python以及PTTLibrary为主来进行爬虫
如果要使用的话需要安装Python及使用的套件(git上有列出)
没有制作成EXE档是因为我这版本Python制作EXE刚好会报错,我又懒得解决
而且我也懒得找免空来存
3.执行过程:
在settings中输入好参数之后
会开始列出范围中符合自定义的异常爆文的标题、编号
以及第25/50/75则推文与发文时间之间的差距
...其实应该要把结果存起来或者是把档案存起来省时间啦
如果有需求我在改版好了:)
4.执行结果:
这是试着跑八卦版第770000到780000这一万则文章中
第25个推文与发文时间的间隔小于5分钟的结果
其中Error是发文者不小心改到时间或者因为其他原因让格式跑掉
https://i.imgur.com/x7USUcU.png
https://i.imgur.com/SNFZOh2.png
https://i.imgur.com/vMrSGbr.png
https://i.imgur.com/mSvjwzC.png
https://i.imgur.com/o00pnww.png
https://i.imgur.com/Dvv2mOD.png
5.后记:
不用Z过滤出目标推文数之后再分析的原因是避免有人故意归零
另外,这只是整理出符合这些条件的文章,要怎么解读就...我对统计比较不熟啦
有任何可以改进的地方希望可以推文/箭头提出,包括程式设计上可以改善的部分XD
谢谢大家:)