楼主:
xyz6206a (xyz6206a)
2016-06-30 11:58:45各位前辈大家好!
我日前使用selenium写爬虫时
遇到网页侦测为机器人而跳出
需要写认证码阻挡,而我自己使用
time.sleep()去延迟下载时间
好像也没法阻止机器人侦测
请问这个原因是?
请问一下有其他解决方法吗?
下图为我遇到的状况
http://imgur.com/CyfWI5k
楼主:
xyz6206a (xyz6206a)
2016-07-04 19:20:00r大是指要用辨识程式去辨别吗?
作者:
Neisseria (Neisseria)
2016-06-30 12:07:00改 user agent 看看?我笨了,不好意思 = =...
作者:
yf9000555 (所以我说那个妈妈如何)
2016-06-30 12:38:00如果那个网站当初设计,是采用同Ip请求次数来阻挡的话,刚好你电脑为浮动IP的话,用系统命令断线重连就可以避开了
楼主:
xyz6206a (xyz6206a)
2016-06-30 12:44:00这个网站要求一定要用学校IP,所以不知道是否可以用断线方式
作者:
cybelia (@@)
2016-06-30 13:03:00原po要爬的站跟你们学校的合约,确定是允许“使用软件大量下载”的吗?
作者:
IAMPF (PF)
2016-06-30 13:17:00你也可以去找大量的proxy或是用tor来避开这个问题
楼主:
xyz6206a (xyz6206a)
2016-06-30 15:41:00其实我也不确定是否允许大量下载这是老师的计画
作者:
tj386 (最爱欧阳三姊妹♥♥♥)
2016-06-30 18:43:00换个作业系统看看 少用win
看有没有猜captcha次数限制,没的话写OCR来破解,这个captcha看起来不难解