[问题] wget抓取网页内容疑问!? BIAO PTT批踢踢实业坊

[问题] wget抓取网页内容疑问!?

楼主: BIAO (超越自己) 2017-07-10 18:47:54

各位板友大家好，
想请问如果要用wget抓取网页内容该如何操作呢?
我需要抓取http://24.23.159.200:8603/页面的内容，
但是用wget只能抓到html的标签，
恳请板上先进提供指引，谢谢大家。

作者: bamchisu (suchi) 2017-07-10 19:14:00

curl

作者: kenduest (小州) 2017-07-10 19:19:00

那个算是动态网页内容，里面有 js 语法让浏览器去进行内容大概就是每隔一秒对某个 url 请求timeout 1 curl http://24.23.159.200:8603/stream测试看看

楼主: BIAO (超越自己) 2017-07-10 20:36:00

谢谢二位，真的可以了!curl为什么可以捞到后端产生的资料呢?如果我要写个爬虫程式，不用libcurl的话能够做到吗?其实我想问的是这件事 XDDD这个捞动态网页资料的方式有没有专有名词呢?主要是好像用python或node.js相对于Qt好像比较好爬虫..但是因为需要直接用qt程式码进行爬虫，所以想和板友请教一下

作者: CP64 ((￣▽￣＃)﹏﹏) 2017-07-10 21:20:00

就只是去分析网页的行为啊他做的事情就是去 http://24.23.159.200:8603/stream拉资料然后填充到网页里就是说你要的网页只是骨架实际上内容是用 js拉东西下来然后填进骨架但是 wget 不会去处理 javascript所以你拉下来会是只有一点 html如果你用 wget http://24.23.159.200:8603/stream 也是有的

楼主: BIAO (超越自己) 2017-07-10 21:39:00

疑，对耶!wget也是有的，因为我一开始没有加stream..原来有这种东西...XD谢谢CP64大喔 ^^

继续阅读

Re: [问题] 写程式用mac安装的问题 Neisseria [问题] 写程式用mac安装的问题 lcwwh [问题] libreoffice或openoffice转micro officejohnny9667 [问题] AR242x/AR542无线网卡无法驱动？LIAR [问题] 新手挑练习机问题qosuel [问题] Ubuntu 16.04 双萤幕设定nihility7893 [问题] autossh 开机自动yshihyu [闲聊] RedHat 7qoooooooo123 [问题] ubuntu 16.04 Macbook pro FN key问题chengreg [问题] 笔电外接萤幕owem0410