※ [本文转录自 Gossiping 看板 #1TeGbHF_ ]
作者: airyptt (跌宕不羁) 看板: Gossiping
标题: Re: [新闻] 财经网美踢爆柯文哲还债拢系假 姚文智也
时间: Sat Oct 12 06:59:11 2019
原文43
现在打这篇有点迟, 但是我想现在现在八卦版人为操作真的太明显, 所以我抛砖引玉...
打一篇简易爬虫教学, 真的很简单.
1. 请先注册
https://grabbly.io/
图说 https://ibb.co/zHng2hZ
可以使用电子邮件帐号罐头网站注册, 如下
https://temp-mail.org/
图说 https://ibb.co/vJwBmJW
然后用上面的罐头电子邮件注册grabbly网站
会收到认证信件, 认证以后
2. 安装plug-in
目前我看到只有支援 Chrome
https://grabbly.io/#download
图说 https://ibb.co/0BfXHFg
安装完成以后
Chrome 网址栏旁边会多出一个G的图案
图说 https://ibb.co/8g37202
3.
进入
https://www.ptt.cc/bbs/Gossiping/index.html
以此篇公告文当范例
https://www.ptt.cc/bbs/Gossiping/M.1570679043.A.C0B.html
进入到文章以后
点选Grabbly插件
图说 https://ibb.co/Sr5jdMj
选取public jobs
图说 https://ibb.co/ydg0QKW
会有我已经设定好的范本, 欢迎各位先进修改
图说 https://ibb.co/WxtryfR
点选 Run in this tab
图说 https://ibb.co/fMY7Fch
之后会开始抓资料, 抓完以后点选download
图说 https://ibb.co/xfjvwTc
在ptt.cc crawler 右边有download, 点击download开始下载档案
图说 https://ibb.co/ZSYMGVL
4. 后续分析
下载以后的档案如下
https://gofile.io/?c=Ch0IHw
这边最基本就是使用Excel做分析... 我想比我强的人多得是, 我就不献丑了
此外, 另外一个ptt网站也已经有一个范本, 操作方式一样
目前范本只有在
ptt.cc/bbs
pttweb.tw
这两个网站有用, 原因在于上面两个网站都有提供IP资料.
大家有空可以玩一下, RedMango最初提供的名单真的只有准, 可惜她被搞死了. 默哀
对了, 下载以后的推嘘箭头会是乱码, 不过相对应的乱码都是固定的, 可以直接
搜寻取代.
===========更新=========
现在用
https://www.plytic.com
查询使用者以后, 点选IP纪录(以RedMango为例)
图说 https://ibb.co/Bc89p0f
开启grabbly plug-in以后, 选取Public jobs, 在Plytic Crawler里点选run in this tab
, 下载档案如下
https://gofile.io/?c=dS8sZc
里面可以爬 共用过IP的帐号与该共用IP及该被查询使用者的IP历史纪录(仅限于在Plytic.com
上的纪录)
======
有很多人质疑RedMango的清单, 我上面所说最初的清单网址如下
https://bit.ly/2OJhzFx
请在该清单里面搜寻Slow, 会找到共用IP的帐号, 以下以其中一帐号 AsanoSugi 为例
进入google.com 搜寻 "asanosugi site:ptt.cc" 结果如下
https://bit.ly/2M6OYIw
点选 "[检举] 超过五个帐号- 看板ID_Multi - 批踢踢实业坊"
可以查看到此帐号被送多重
到此, 此清单鉴于IP共用的方式来判定十分准确, 说不准的请从该清单里面找出反例