Re: [请益] 大家爬虫都爬什么好玩?

楼主: mejichoco (UoU)   2021-02-04 20:28:12
不好意思,想藉这个标题问一下
如果爬商业网站的话
写通知信或是告知信需要给哪个部门?
还是写给客服信箱才可以?
不然到时候我怕实验爬虫程式
搞到最后被反制或是列为黑名单ip就糟糕了
谢谢!
作者: accessdenied (存取违规)   2021-02-06 02:31:00
ocr无用,我试过很多 ocr 方案,他们都只能对印刷字体有辨识力,手写字和扭曲的captcha无法辨识
作者: alihue (wanda wanda)   2021-02-04 21:00:00
干嘛写 难道人家会为了你去申请这个 ip 列白名单吗
作者: knives   2021-02-04 21:04:00
写什么,太闲
作者: DarkIllusion (′・ω・‵)   2021-02-04 21:35:00
告知后直接进黑名单
作者: mercurycgt68 (发芽的吉它手)   2021-02-04 21:58:00
小夫我要进来了
作者: EPGo   2021-02-04 22:01:00
怕的话也可以买 IP
作者: vi000246 (Vi)   2021-02-04 23:04:00
你可以反制他的反制啊 写爬虫就是这样 见不得光
作者: kurtsgm   2021-02-05 00:30:00
XD 金勾追
作者: Virness   2021-02-05 00:47:00
XD 怪盗基德吗 我晚上9点要进来囉
作者: viper9709 (阿达)   2021-02-05 00:53:00
推三楼
作者: pumapupa   2021-02-05 01:05:00
可能就看一下robots.txt吧?
作者: taipoo (要成功要积极)   2021-02-05 02:23:00
定时间换ip就可以解决这个问题了
作者: aidansky0989 (alta)   2021-02-05 06:55:00
先爬500个代理ip之后随便你玩
作者: gs8613789 (Shang6029)   2021-02-05 07:02:00
爬虫的乐趣不就是攻防吗
作者: spfy (spfy)   2021-02-05 07:51:00
现在还能看到请谢谢对不起的有礼乡民真的少见
作者: oncemore (超级喜欢林玮恩)   2021-02-05 09:44:00
写了你直接被吉
作者: devilkool (对猫毛过敏的猫控)   2021-02-05 09:46:00
怪盗基德www
作者: mychiux413 (小邱)   2021-02-05 10:02:00
我通常request前都sleep一下,不要造成人家主机负担,当个友善的网络公民
作者: yam276 ('_')   2021-02-05 10:32:00
从此在暗网的角落,流传着现代怪盗基德的传说……
作者: liujh (集气!)   2021-02-05 11:07:00
不会在黑名单太久,防火墙内存有限不要同时平行跑太多工作,对方都没什么感觉最暴力的爬虫是 Google Bot,你很难像他那么凶狠
作者: rahit (水元素)   2021-02-05 13:00:00
把爬的速度放慢到跟user差不多然后放著做别的事
作者: Bujo (部长)   2021-02-05 13:02:00
你直接请他给你database 帐密比较快
作者: wahaha279 (哇哈哈:3)   2021-02-05 13:15:00
发个request 睡个五秒,然后你去睡一觉
作者: ian90911 (xopowo)   2021-02-05 14:34:00
fb的我觉得也很凶...
作者: Darkword1987 (黑字)   2021-02-05 15:47:00
太温良恭俭让了吧
作者: andrew5106 (撿到一百塊雷~)   2021-02-05 16:41:00
写个random sleep阿,防止ban ip也有很多方法吧
作者: jimmily   2021-02-05 17:16:00
大哥你也太可爱了吧XD
作者: accessdenied (存取违规)   2021-02-05 18:55:00
目前爬虫遇到无法克服的障碍就是captcha, 有人知道有什么工具吗?
作者: james852 (james852)   2021-02-05 20:53:00
回楼上 OCR
作者: vi000246 (Vi)   2021-02-05 21:39:00
captcha是大坑喔 要学openCV ML 看图片难易度
作者: OrzOGC (洞八达人.拖哨天王)   2021-02-05 21:48:00
V3现在不用了不是?
作者: aidansky0989 (alta)   2021-02-05 22:32:00
现在不都是滑块?还有验证码喔
作者: art1 (人,原来不是人)   2021-02-06 07:41:00
看过有人写程式产生资料集然后训练一个 ocr model 来解决
作者: TheOneisNEO (Thomas Anderson)   2021-02-06 10:45:00
自干的OCR应该也很难堪用吧
作者: new122851 (未若柳絮因风起)   2021-02-06 12:34:00
笑死 你有听过小偷偷东西前还先告知屋主我要偷了哦?被黑单挂个vpn再战
作者: chkea380   2021-02-06 20:53:00
captcha随便套个cnn model就可以了
作者: LittleYueh (岳)   2021-02-06 22:59:00
怪盗基德超好笑哈哈哈哈
作者: sarsman (DeNT15T♠)   2021-02-07 06:09:00
有礼貌爬虫
作者: b85040312 (万年newman)   2021-02-07 15:29:00
你应该有长胡子
作者: uncleben006 (uncleben006)   2021-02-08 19:38:00
推有礼貌虫虫
作者: pringles27 (拉拉)   2021-02-15 23:13:00
爬ptt股版即时资讯,并透过line来通知

Links booklink

Contact Us: admin [ a t ] ucptt.com