[问题] 使用selenium爬虫被侦测为机器人

楼主: xyz6206a (xyz6206a)   2016-06-30 11:58:45
各位前辈大家好!
我日前使用selenium写爬虫时
遇到网页侦测为机器人而跳出
需要写认证码阻挡,而我自己使用
time.sleep()去延迟下载时间
好像也没法阻止机器人侦测
请问这个原因是?
请问一下有其他解决方法吗?
下图为我遇到的状况
http://imgur.com/CyfWI5k
楼主: xyz6206a (xyz6206a)   2016-07-04 19:20:00
r大是指要用辨识程式去辨别吗?
作者: Neisseria (Neisseria)   2016-06-30 12:07:00
改 user agent 看看?我笨了,不好意思 = =...
作者: yf9000555 (所以我说那个妈妈如何)   2016-06-30 12:38:00
如果那个网站当初设计,是采用同Ip请求次数来阻挡的话,刚好你电脑为浮动IP的话,用系统命令断线重连就可以避开了
楼主: xyz6206a (xyz6206a)   2016-06-30 12:44:00
这个网站要求一定要用学校IP,所以不知道是否可以用断线方式
作者: cybelia (@@)   2016-06-30 13:03:00
原po要爬的站跟你们学校的合约,确定是允许“使用软件大量下载”的吗?
作者: IAMPF (PF)   2016-06-30 13:17:00
你也可以去找大量的proxy或是用tor来避开这个问题
楼主: xyz6206a (xyz6206a)   2016-06-30 15:41:00
其实我也不确定是否允许大量下载这是老师的计画
作者: tj386 (最爱欧阳三姊妹♥♥♥)   2016-06-30 18:43:00
换个作业系统看看 少用win
作者: ripple0129 (perry tsai)   2016-06-30 22:21:00
看有没有猜captcha次数限制,没的话写OCR来破解,这个captcha看起来不难解

Links booklink

Contact Us: admin [ a t ] ucptt.com