请问
最近在练习网络爬虫,在爬网站资讯
我是使用了一个jsoup library在爬
一般网页都可以正常爬到htm内容
可是像雅虎拍卖这种为何都爬不到结果???
是因为ajax的关系吗?
还请指导与指点一下
作者:
swpoker (swpoker)
2014-08-18 11:31:00javascript???
Y 拍有挡爬虫,看一下你 parse 的东西如果是首页,那就是被挡掉了,记得要伪装
没UA或者UA太老实(?)你要记得塞UA下去不过普通来讲 潜规则是如果他不愿意被你爬 他就会放robots.txt或者check UA, 当然,这很好骗,只是这是一个共通的潜规则 尽量不要大量deploy破坏规则的crawler
作者:
swpoker (swpoker)
2014-08-19 17:51:00爬虫跟DDOS没什么两样~网站管理员很讨厌的~
作者:
storypp (随风而逝的是一份真)
2014-08-20 00:00:00新手小问..UA是什么?GOOGLE关键字可以下什么来学...
User-Agent,是 HTTP 的 Header,给网站判别连进来的是哪种 browser
作者:
ccas (昆蟲ä¸ä¸€å®šæœƒé£›)
2014-08-20 13:01:00我记得Y爬太快也会被挡~~要记得不要爬太快
像是google的crawler的UA就很老实的说Googlebot XD也有的是会塞session到cookie的网页 至种普通crawler也没办法爬太深 多半只能爬到地一层...我说土炮的bot很多open source的crawler会处理cookie-session不过这是技术问题, 道德问题还是要注意一下 :P另外一个比较有可能出包的的就是检查referer这也是大多数crawler会帮你处理的技术问题就是