[问题] 使用selenium爬虫被侦测为机器人 xyz6206a PTT批踢踢实业坊

楼主: xyz6206a (xyz6206a) 2016-06-30 11:58:45

各位前辈大家好!
我日前使用selenium写爬虫时
遇到网页侦测为机器人而跳出
需要写认证码阻挡，而我自己使用
time.sleep()去延迟下载时间
好像也没法阻止机器人侦测
请问这个原因是?
请问一下有其他解决方法吗?
下图为我遇到的状况

楼主: xyz6206a (xyz6206a) 2016-07-04 19:20:00

r大是指要用辨识程式去辨别吗？

作者: Neisseria (Neisseria) 2016-06-30 12:07:00

改 user agent 看看？我笨了，不好意思 = =...

作者: yf9000555 (所以我说那个妈妈如何) 2016-06-30 12:38:00

如果那个网站当初设计，是采用同Ip请求次数来阻挡的话，刚好你电脑为浮动IP的话，用系统命令断线重连就可以避开了

楼主: xyz6206a (xyz6206a) 2016-06-30 12:44:00

这个网站要求一定要用学校IP，所以不知道是否可以用断线方式

作者: cybelia (@@) 2016-06-30 13:03:00

原po要爬的站跟你们学校的合约，确定是允许“使用软件大量下载”的吗？

作者: IAMPF (PF) 2016-06-30 13:17:00

你也可以去找大量的proxy或是用tor来避开这个问题

楼主: xyz6206a (xyz6206a) 2016-06-30 15:41:00

其实我也不确定是否允许大量下载这是老师的计画

作者: tj386 (最爱欧阳三姊妹♥♥♥) 2016-06-30 18:43:00

换个作业系统看看少用win

作者: ripple0129 (perry tsai) 2016-06-30 22:21:00

看有没有猜captcha次数限制，没的话写OCR来破解，这个captcha看起来不难解

继续阅读