[问题] parse雅虎拍卖查询结果parse不到

楼主: faithfay (梦遗大师)   2014-08-18 10:26:05
请问
最近在练习网络爬虫,在爬网站资讯
我是使用了一个jsoup library在爬
一般网页都可以正常爬到htm内容
可是像雅虎拍卖这种为何都爬不到结果???
是因为ajax的关系吗?
还请指导与指点一下
作者: swpoker (swpoker)   2014-08-18 11:31:00
javascript???
作者: brianhsu (坟墓)   2014-08-19 07:36:00
Y 拍有挡爬虫,看一下你 parse 的东西如果是首页,那就是被挡掉了,记得要伪装
作者: Killercat (杀人猫™)   2014-08-19 11:28:00
没UA或者UA太老实(?)你要记得塞UA下去不过普通来讲 潜规则是如果他不愿意被你爬 他就会放robots.txt或者check UA, 当然,这很好骗,只是这是一个共通的潜规则 尽量不要大量deploy破坏规则的crawler
作者: swpoker (swpoker)   2014-08-19 17:51:00
爬虫跟DDOS没什么两样~网站管理员很讨厌的~
作者: storypp (随风而逝的是一份真)   2014-08-20 00:00:00
新手小问..UA是什么?GOOGLE关键字可以下什么来学...
作者: brianhsu (坟墓)   2014-08-20 08:06:00
User-Agent,是 HTTP 的 Header,给网站判别连进来的是哪种 browser
作者: ccas (昆蟲不一定會飛)   2014-08-20 13:01:00
我记得Y爬太快也会被挡~~要记得不要爬太快
作者: Killercat (杀人猫™)   2014-08-21 14:36:00
像是google的crawler的UA就很老实的说Googlebot XD也有的是会塞session到cookie的网页 至种普通crawler也没办法爬太深 多半只能爬到地一层...我说土炮的bot很多open source的crawler会处理cookie-session不过这是技术问题, 道德问题还是要注意一下 :P另外一个比较有可能出包的的就是检查referer这也是大多数crawler会帮你处理的技术问题就是

Links booklink

Contact Us: admin [ a t ] ucptt.com