PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
java
[问题] parse雅虎拍卖查询结果parse不到
楼主:
faithfay
(梦遗大师)
2014-08-18 10:26:05
请问
最近在练习网络爬虫,在爬网站资讯
我是使用了一个jsoup library在爬
一般网页都可以正常爬到htm内容
可是像雅虎拍卖这种为何都爬不到结果???
是因为ajax的关系吗?
还请指导与指点一下
作者:
swpoker
(swpoker)
2014-08-18 11:31:00
javascript???
作者:
brianhsu
(坟墓)
2014-08-19 07:36:00
Y 拍有挡爬虫,看一下你 parse 的东西如果是首页,那就是被挡掉了,记得要伪装
作者:
Killercat
(杀人猫™)
2014-08-19 11:28:00
没UA或者UA太老实(?)你要记得塞UA下去不过普通来讲 潜规则是如果他不愿意被你爬 他就会放robots.txt或者check UA, 当然,这很好骗,只是这是一个共通的潜规则 尽量不要大量deploy破坏规则的crawler
作者:
swpoker
(swpoker)
2014-08-19 17:51:00
爬虫跟DDOS没什么两样~网站管理员很讨厌的~
作者:
storypp
(随风而逝的是一份真)
2014-08-20 00:00:00
新手小问..UA是什么?GOOGLE关键字可以下什么来学...
作者:
brianhsu
(坟墓)
2014-08-20 08:06:00
User-Agent,是 HTTP 的 Header,给网站判别连进来的是哪种 browser
作者:
ccas
(昆蟲ä¸ä¸€å®šæœƒé£›)
2014-08-20 13:01:00
我记得Y爬太快也会被挡~~要记得不要爬太快
作者:
Killercat
(杀人猫™)
2014-08-21 14:36:00
像是google的crawler的UA就很老实的说Googlebot XD也有的是会塞session到cookie的网页 至种普通crawler也没办法爬太深 多半只能爬到地一层...我说土炮的bot很多open source的crawler会处理cookie-session不过这是技术问题, 道德问题还是要注意一下 :P另外一个比较有可能出包的的就是检查referer这也是大多数crawler会帮你处理的技术问题就是
继续阅读
[问题] GOOGLE TALK SERVER是不是连不到了???
faithfay
[问题] JPA Create EntityManager
Flychop
[问题] spring data 问题
cyclone350
[J2SE] 多型疑问
icydream
Re: [J2EE] Spring MVC 实现搜寻文章功能 (Lucene..)
ek0424
[问题] springMVC取得所有mapping URL
cyclone350
Re: [工具] 大家写JSP也是用Eclipse写吗?
linlin76
Re: [工具] Eclipse + Dropbox + Git
dharma
[问题] Netbeans 和 Eclipse快捷键
linlin76
[问题] define a constructor in interface?
michael0728n
Links
booklink
Contact Us: admin [ a t ] ucptt.com