[问题] parse雅虎拍卖查询结果parse不到 faithfay PTT批踢踢实业坊

[问题] parse雅虎拍卖查询结果parse不到

楼主: faithfay (梦遗大师) 2014-08-18 10:26:05

请问
最近在练习网络爬虫,在爬网站资讯
我是使用了一个jsoup library在爬
一般网页都可以正常爬到htm内容
可是像雅虎拍卖这种为何都爬不到结果???
是因为ajax的关系吗?
还请指导与指点一下

作者: swpoker (swpoker) 2014-08-18 11:31:00

javascript???

作者: brianhsu (坟墓) 2014-08-19 07:36:00

Y 拍有挡爬虫，看一下你 parse 的东西如果是首页，那就是被挡掉了，记得要伪装

作者: Killercat (杀人猫™) 2014-08-19 11:28:00

没UA或者UA太老实(?)你要记得塞UA下去不过普通来讲潜规则是如果他不愿意被你爬他就会放robots.txt或者check UA, 当然，这很好骗，只是这是一个共通的潜规则尽量不要大量deploy破坏规则的crawler

作者: swpoker (swpoker) 2014-08-19 17:51:00

爬虫跟DDOS没什么两样~网站管理员很讨厌的~

作者: storypp (随风而逝的是一份真) 2014-08-20 00:00:00

新手小问..UA是什么?GOOGLE关键字可以下什么来学...

作者: brianhsu (坟墓) 2014-08-20 08:06:00

User-Agent，是 HTTP 的 Header，给网站判别连进来的是哪种 browser

作者: ccas (æ˜†èŸ²ä¸ä¸€å®šæœƒé£›) 2014-08-20 13:01:00

我记得Y爬太快也会被挡~~要记得不要爬太快

作者: Killercat (杀人猫™) 2014-08-21 14:36:00

像是google的crawler的UA就很老实的说Googlebot XD也有的是会塞session到cookie的网页至种普通crawler也没办法爬太深多半只能爬到地一层...我说土炮的bot很多open source的crawler会处理cookie-session不过这是技术问题, 道德问题还是要注意一下 :P另外一个比较有可能出包的的就是检查referer这也是大多数crawler会帮你处理的技术问题就是

继续阅读

[问题] GOOGLE TALK SERVER是不是连不到了???faithfay [问题] JPA Create EntityManagerFlychop [问题] spring data 问题cyclone350 [J2SE] 多型疑问icydream Re: [J2EE] Spring MVC 实现搜寻文章功能 (Lucene..)ek0424 [问题] springMVC取得所有mapping URLcyclone350 Re: [工具] 大家写JSP也是用Eclipse写吗？linlin76 Re: [工具] Eclipse + Dropbox + Gitdharma [问题] Netbeans 和 Eclipse快捷键linlin76 [问题] define a constructor in interface?michael0728n