※ 引述《clothg34569 (提拉米苏冰淇淋)》之铭言:
: 大家安安,八卦板首PO,如果有违反板规麻烦告知一下,我再修改
: 0.前言:
: 就,最近想说拿八卦版来玩玩爬虫,又看到一堆人说八卦有异常爆文的情形
: 所以就写了个异常爆文分析器来当练习
: 1.介绍:
: 先上GIT,Code和Readme都放在这了
: https://github.com/Daniel34569/PTTCrawler
: 首先我们先定义一下异常爆文
: 我先定义为:在短时间内有不合常理大量推文的就算
: 至于时间多短,大量是多大量就因人而异,因此都当作输入的参数
: 2.使用套件:
: 我是使用Python以及PTTLibrary为主来进行爬虫
: 如果要使用的话需要安装Python及使用的套件(git上有列出)
: 没有制作成EXE档是因为我这版本Python制作EXE刚好会报错,我又懒得解决
: 而且我也懒得找免空来存
: 3.执行过程:
: 在settings中输入好参数之后
: 会开始列出范围中符合自定义的异常爆文的标题、编号
: 以及第25/50/75则推文与发文时间之间的差距
: ...其实应该要把结果存起来或者是把档案存起来省时间啦
: 如果有需求我在改版好了:)
: 4.执行结果:
: 这是试着跑八卦版第770000到780000这一万则文章中
: 第25个推文与发文时间的间隔小于5分钟的结果
: 其中Error是发文者不小心改到时间或者因为其他原因让格式跑掉
: https://i.imgur.com/x7USUcU.png
: https://i.imgur.com/SNFZOh2.png
: https://i.imgur.com/vMrSGbr.png
: https://i.imgur.com/mSvjwzC.png
: https://i.imgur.com/o00pnww.png
: https://i.imgur.com/Dvv2mOD.png
: 5.后记:
: 不用Z过滤出目标推文数之后再分析的原因是避免有人故意归零
: 另外,这只是整理出符合这些条件的文章,要怎么解读就...我对统计比较不熟啦
: 有任何可以改进的地方希望可以推文/箭头提出,包括程式设计上可以改善的部分XD
: 谢谢大家:)
简单做一个小改版
增加了分析特定ID的功能
档案一样放在GIT上
https://github.com/Daniel34569/PTTCrawler
多了两项参数可以设定:要不要搜寻ID和搜寻的ID
范例: 搜寻马雅人
显示参数设定
https://i.imgur.com/M0SqliJ.png
中间个别文章显示的过程省略
最后结果:
https://i.imgur.com/3AQy10U.png
另外附上刚刚PO的那篇的爆文时间
https://i.imgur.com/Z5cMqZv.png
25推:7分钟
50推:14分钟
75推:23分钟
整体而言还蛮平滑的XD
另外,用马雅人当例子是想说选一个比较没争议的
如果马雅人不希望被当例子麻烦站内一下我改掉
从马雅人这个例子可以看出,其实只要累积够高的名气(例如变成知名ID
爆文速度也会加速,不过马雅人底下一堆先推再看或纯推的...
毕竟整篇看完时间会超过5分钟
最后,这个分析器基本上只是一个Filter,帮助找出可能是异常的爆文
后续分析还是要看个人
像是马雅人这种ID爆文速度很快就很正常,不太算异常
而发钱、地震等等几种类型的文章,也都蛮快的
PS:加这个功能是因为比较简单XD
PS2:最近期中,所以就看心情更新