[问题] wget抓取网页内容疑问!?

楼主: BIAO (超越自己)   2017-07-10 18:47:54
各位板友大家好,
想请问如果要用wget抓取网页内容该如何操作呢?
我需要抓取http://24.23.159.200:8603/页面的内容,
但是用wget只能抓到html的标签,
恳请板上先进提供指引,谢谢大家。
作者: bamchisu (suchi)   2017-07-10 19:14:00
curl
作者: kenduest (小州)   2017-07-10 19:19:00
那个算是动态网页内容,里面有 js 语法让浏览器去进行内容大概就是每隔一秒对某个 url 请求timeout 1 curl http://24.23.159.200:8603/stream测试看看
楼主: BIAO (超越自己)   2017-07-10 20:36:00
谢谢二位,真的可以了!curl为什么可以捞到后端产生的资料呢?如果我要写个爬虫程式,不用libcurl的话能够做到吗?其实我想问的是这件事 XDDD这个捞动态网页资料的方式有没有专有名词呢?主要是好像用python或node.js相对于Qt好像比较好爬虫..但是因为需要直接用qt程式码进行爬虫,所以想和板友请教一下
作者: CP64 (( ̄▽ ̄#)﹏﹏)   2017-07-10 21:20:00
就只是去分析网页的行为啊他做的事情就是去 http://24.23.159.200:8603/stream拉资料 然后填充到网页里就是说 你要的网页只是骨架 实际上内容是用 js拉东西下来 然后填进骨架 但是 wget 不会去处理 javascript所以你拉下来会是只有一点 html如果你用 wget http://24.23.159.200:8603/stream 也是有的
楼主: BIAO (超越自己)   2017-07-10 21:39:00
疑,对耶!wget也是有的,因为我一开始没有加stream..原来有这种东西...XD谢谢CP64大喔 ^^

Links booklink

Contact Us: admin [ a t ] ucptt.com