[问题] 网页资料抓取

楼主: filiaslayers (司马云)   2014-03-03 15:17:58
/* 听说注明使用的语言、环境
* 问题有可能较容易被解决...
*/
我写了一个script想要抓取一个网页上的档案列表
这个网页是用apache做index,也就是会把目录下的档案自动生成一个列表
我有上网google到一个方法,不过他写的我实在看不懂...
有人可以教我怎么分析吗?
wget
作者: danny8376 (钓到一只猴子@_@)   2014-03-03 19:23:00
谁跟你说一定要用'了? "只是要考虑shell的一些特殊符号要记得跳脱比较麻烦而已
楼主: filiaslayers (司马云)   2014-03-03 21:04:00
所以是都可以吗?我看所有的教学文都用'才觉得奇怪
作者: danny8376 (钓到一只猴子@_@)   2014-03-03 21:44:00
两者的差别 你可以分别跑 echo '$PATH' 和 echo "$PATH"差异很明显
作者: danny8376 (钓到一只猴子@_@)   2014-03-03 21:47:00
然后回一下你问了 第二行的话 很简单就是从wgetlog.txt里面抓出URL:后面的部分
作者: danny8376 (钓到一只猴子@_@)   2014-03-03 21:48:00
(就是WGET输出档案中 档案的部分抓出来之后再把&换成& (HTML的特殊字符跳脱)

Links booklink

Contact Us: admin [ a t ] ucptt.com