: 推 emptie: 屁啦 一大堆纯文字的东西最好会影响效能 07/03 14:21
: → emptie: but站方有限制爬虫短时间能存取的数量就是了,你爬太快有 07/03 14:22
: → emptie: 机会被auto ban 07/03 14:22
: → emptie: 那样备份网站可能就要多开几只帐号来爬 很不方便 07/03 14:23
我不认为备份网站是用 PTT 帐号在爬的
应该是去爬网页板,原因有以下几个
1. 控制码
首先可以观察到,备份站是没有控制码的。
如果是用帐号在爬的话,有控制码的文章就会出现他的帐号名称。
PiTT 的作法是侦测到这个页面有在用控制码(右下角会显示)就改成纯文字模式,
所以如果用 PiTT 你会发现有控制码的文章一定是全白色的,即使作者有用颜色。
但纯文字模式下ID控制码会变成 **s,也并非完全消失
当然他可以取一个乱码ID然后直接取代掉,不过感觉起来还是直接爬网页板比较方便
2. 文章编号
例如以下形式 #12345678 (NoSuchBoard)
可以发现备份网站的文章编号是可以连到相应的文章的
如果是爬网页板的话很简单,因为网页板直接就提供连结了 (<a href=...>)
把网域改了就好了
但如果是用帐号去爬的话,就得自己去侦测哪里有文章编号
还要自己从文章编号转成网址,有点吃力不讨好
3. ???
525的这篇文章: #1YiVstLH (Marginalman)
https://www.ptt.cc/bbs/Marginalman/M.1655831991.A.551.html
我也不知道原因,可是我不管用 term.ptt.cc 还是各种 app
都会显示一堆 胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬
而网页板不知道为什么就没有,且备份站也没有
所以我觉得备份站应该是爬网页板而不是自己用帐号爬的