[问题] httpclient遇到#document

楼主: storypp (随风而逝的是一份真)   2016-10-20 21:05:43
我使用HttpClient要抓网页原始档
可是只要遇到网页内含有 #document
该段就会被跳过
如图一
http://i.imgur.com/VBDQIgC.png
这个网页用chrome的检查可以看到里面有一段#document的内容
可是当我使用HttpClient搭配HttpGet之类的要把原始档抓下来,
结果变成图二
http://i.imgur.com/OmN99yt.png
可以看到#document一直到</frame>中间的内容全部消失
想请教大家都如何解决这种问题?
作者: ssccg (23)   2016-10-20 21:36:00
那就是frame里的另一个网页,你要parse frame的src另外发一个reuqest去抓才会有,#document只是chrome开发者工具标示frame中另一个网页内容的方式而已另外Elements是chrome建的DOM,原始档是Sources那个分页的

Links booklink

Contact Us: admin [ a t ] ucptt.com