PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
java
[问题] httpclient遇到#document
楼主:
storypp
(随风而逝的是一份真)
2016-10-20 21:05:43
我使用HttpClient要抓网页原始档
可是只要遇到网页内含有 #document
该段就会被跳过
如图一
http://i.imgur.com/VBDQIgC.png
这个网页用chrome的检查可以看到里面有一段#document的内容
可是当我使用HttpClient搭配HttpGet之类的要把原始档抓下来,
结果变成图二
http://i.imgur.com/OmN99yt.png
可以看到#document一直到</frame>中间的内容全部消失
想请教大家都如何解决这种问题?
作者:
ssccg
(23)
2016-10-20 21:36:00
那就是frame里的另一个网页,你要parse frame的src另外发一个reuqest去抓才会有,
#document
只是chrome开发者工具标示frame中另一个网页内容的方式而已另外Elements是chrome建的DOM,原始档是Sources那个分页的
继续阅读
[卖] JAVA 及 NFC书籍 各一本
vuarnet
[问题] web framework 求推荐
s58348292
[问题] 爬虫正规表达式的效能
vi000246
[问题] ArrayList的层数问题
iphone5566s
售JAVA考试卷两张
ada76145
[问题] 请教64位元的JVM如何呼叫32位元的注册服
eric123
[问题] 新手提问 有关河内塔的递回理解
ciakkk040156
[工具] 产生PDF的oper source工具?
embman
[出售]售JAVA考试券(台北巨匠购入)已售出
youngwe0803
[问题] ethereumj sync thread
pttuserboy
Links
booklink
Contact Us: admin [ a t ] ucptt.com