PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Linux
[问题] wget抓取网页内容疑问!?
楼主:
BIAO
(超越自己)
2017-07-10 18:47:54
各位板友大家好,
想请问如果要用wget抓取网页内容该如何操作呢?
我需要抓取http://24.23.159.200:8603/页面的内容,
但是用wget只能抓到html的标签,
恳请板上先进提供指引,谢谢大家。
作者:
bamchisu
(suchi)
2017-07-10 19:14:00
curl
作者:
kenduest
(小州)
2017-07-10 19:19:00
那个算是动态网页内容,里面有 js 语法让浏览器去进行内容大概就是每隔一秒对某个 url 请求timeout 1 curl
http://24.23.159.200:8603/stream
测试看看
楼主:
BIAO
(超越自己)
2017-07-10 20:36:00
谢谢二位,真的可以了!curl为什么可以捞到后端产生的资料呢?如果我要写个爬虫程式,不用libcurl的话能够做到吗?其实我想问的是这件事 XDDD这个捞动态网页资料的方式有没有专有名词呢?主要是好像用python或node.js相对于Qt好像比较好爬虫..但是因为需要直接用qt程式码进行爬虫,所以想和板友请教一下
作者:
CP64
(( ̄▽ ̄#)﹏﹏)
2017-07-10 21:20:00
就只是去分析网页的行为啊他做的事情就是去
http://24.23.159.200:8603/stream
拉资料 然后填充到网页里就是说 你要的网页只是骨架 实际上内容是用 js拉东西下来 然后填进骨架 但是 wget 不会去处理 javascript所以你拉下来会是只有一点 html如果你用 wget
http://24.23.159.200:8603/stream
也是有的
楼主:
BIAO
(超越自己)
2017-07-10 21:39:00
疑,对耶!wget也是有的,因为我一开始没有加stream..原来有这种东西...XD谢谢CP64大喔 ^^
继续阅读
Re: [问题] 写程式用mac安装的问题
Neisseria
[问题] 写程式用mac安装的问题
lcwwh
[问题] libreoffice或openoffice转micro office
johnny9667
[问题] AR242x/AR542无线网卡无法驱动?
LIAR
[问题] 新手挑练习机问题
qosuel
[问题] Ubuntu 16.04 双萤幕设定
nihility7893
[问题] autossh 开机自动
yshihyu
[闲聊] RedHat 7
qoooooooo123
[问题] ubuntu 16.04 Macbook pro FN key问题
chengreg
[问题] 笔电外接萤幕
owem0410
Links
booklink
Contact Us: admin [ a t ] ucptt.com