不好意思,想藉这个标题问一下
如果爬商业网站的话
写通知信或是告知信需要给哪个部门?
还是写给客服信箱才可以?
不然到时候我怕实验爬虫程式
搞到最后被反制或是列为黑名单ip就糟糕了
谢谢!
ocr无用,我试过很多 ocr 方案,他们都只能对印刷字体有辨识力,手写字和扭曲的captcha无法辨识
作者:
alihue (wanda wanda)
2021-02-04 21:00:00干嘛写 难道人家会为了你去申请这个 ip 列白名单吗
作者:
knives 2021-02-04 21:04:00写什么,太闲
作者: mercurycgt68 (发芽的吉它手) 2021-02-04 21:58:00
小夫我要进来了
作者: EPGo 2021-02-04 22:01:00
怕的话也可以买 IP
作者: pumapupa 2021-02-05 01:05:00
可能就看一下robots.txt吧?
作者:
taipoo (要成功要积极)
2021-02-05 02:23:00定时间换ip就可以解决这个问题了
作者:
gs8613789 (Shang6029)
2021-02-05 07:02:00爬虫的乐趣不就是攻防吗
作者:
spfy (spfy)
2021-02-05 07:51:00现在还能看到请谢谢对不起的有礼乡民真的少见
作者:
oncemore (超级喜欢林玮恩)
2021-02-05 09:44:00写了你直接被吉
我通常request前都sleep一下,不要造成人家主机负担,当个友善的网络公民
作者:
yam276 ('_')
2021-02-05 10:32:00从此在暗网的角落,流传着现代怪盗基德的传说……
作者:
liujh (集气!)
2021-02-05 11:07:00不会在黑名单太久,防火墙内存有限不要同时平行跑太多工作,对方都没什么感觉最暴力的爬虫是 Google Bot,你很难像他那么凶狠
作者:
rahit (水元素)
2021-02-05 13:00:00把爬的速度放慢到跟user差不多然后放著做别的事
作者:
Bujo (部长)
2021-02-05 13:02:00你直接请他给你database 帐密比较快
作者:
ian90911 (xopowo)
2021-02-05 14:34:00fb的我觉得也很凶...
作者:
andrew5106 (撿到一百塊雷~)
2021-02-05 16:41:00写个random sleep阿,防止ban ip也有很多方法吧
目前爬虫遇到无法克服的障碍就是captcha, 有人知道有什么工具吗?
作者:
james852 (james852)
2021-02-05 20:53:00回楼上 OCR
captcha是大坑喔 要学openCV ML 看图片难易度
作者:
OrzOGC (洞八达人.拖哨天王)
2021-02-05 21:48:00V3现在不用了不是?
作者:
art1 (人,原来不是人)
2021-02-06 07:41:00看过有人写程式产生资料集然后训练一个 ocr model 来解决
笑死 你有听过小偷偷东西前还先告知屋主我要偷了哦?被黑单挂个vpn再战
作者: chkea380 2021-02-06 20:53:00
captcha随便套个cnn model就可以了
作者:
sarsman (DeNT15T♠)
2021-02-07 06:09:00有礼貌爬虫
作者: uncleben006 (uncleben006) 2021-02-08 19:38:00
推有礼貌虫虫