[问题] 丢入htmlParse的东西

楼主: oldjojotenya (旧舅舅)   2015-01-30 21:39:06
[问题类型]:
程式咨询
[软件熟悉度]:
使用者
[问题叙述]:
最近在学习网络爬虫,看到网络上喂给htmlParse的内容的写法不太一样,
本人对于HTTP的基础薄弱,有点不得其门而入的感觉,
想请教以下写法的异同与使用时机的差别,谢谢!
1.
url<-"http://xxx.html"
content<-htmlParse(url)
2.(有时候1.不顺利的时候带2.的式子就成功了不知道为何)
url<-getURL("http://xxx.html")
content<-htmlParse(url)
3.(个人猜测以下这种写法只能存取本地file?)
url<-"http://xxx.html"
f<-file(url)
f_size<-file.info(url)$size
content<-readChar(f,f_size)
close(f)
作者: Wush978 (拒看低质媒体)   2015-01-30 22:24:00
我没有特别研究过curl这类网络工具。如果你可以提供网址我可能比较容易了解。(目前我是猜可能和http 转址有关)
作者: kenshin528 (成立奥凶帝国!!)   2015-01-31 02:04:00
没用过第一种写法@@
作者: gsuper (Logit(odds))   2015-01-31 03:45:00
我都直接 strsplit(x,'<tr>') 硬干
作者: carl090105 (Jing)   2015-01-31 12:58:00
虽然可能跟内文没什么关系;不过推荐一下rvest这个套件
楼主: oldjojotenya (旧舅舅)   2015-01-31 13:48:00
谢谢各位大大!

Links booklink

Contact Us: admin [ a t ] ucptt.com