[问题] 丢入htmlParse的东西 oldjojotenya PTT批踢踢实业坊

[问题] 丢入htmlParse的东西

楼主: oldjojotenya (旧舅舅) 2015-01-30 21:39:06

[问题类型]:
程式咨询
[软件熟悉度]:
使用者
[问题叙述]:
最近在学习网络爬虫，看到网络上喂给htmlParse的内容的写法不太一样，
本人对于HTTP的基础薄弱，有点不得其门而入的感觉，
想请教以下写法的异同与使用时机的差别，谢谢！
1.
url<-"http://xxx.html"
content<-htmlParse(url)
2.(有时候1.不顺利的时候带2.的式子就成功了不知道为何)
url<-getURL("http://xxx.html")
content<-htmlParse(url)
3.(个人猜测以下这种写法只能存取本地file?)
url<-"http://xxx.html"
f<-file(url)
f_size<-file.info(url)$size
content<-readChar(f,f_size)
close(f)

作者: Wush978 (拒看低质媒体) 2015-01-30 22:24:00

我没有特别研究过curl这类网络工具。如果你可以提供网址我可能比较容易了解。（目前我是猜可能和http 转址有关）

作者: kenshin528 (成立奥凶帝国!!) 2015-01-31 02:04:00

没用过第一种写法@@

作者: gsuper (Logit(odds)) 2015-01-31 03:45:00

我都直接 strsplit(x,'<tr>') 硬干

作者: carl090105 (Jing) 2015-01-31 12:58:00

虽然可能跟内文没什么关系；不过推荐一下rvest这个套件

楼主: oldjojotenya (旧舅舅) 2015-01-31 13:48:00

谢谢各位大大！

继续阅读

[问题]不知从何处理起的BUGcoke228 Re: [问题] Rcpp 初学Wush978 Re: [问题] 用R 写spss 的logistic regressionandrew43 Re: [问题] Rcpp 初学celestialgod [问题] Rcpp 初学gsuper [问题] 用R 写spss 的logistic regressionlepin2001 [问题] 字串\的输入方式lovesnow1990 [问题] 请问RSelenium套件问题mickey1231 Re: [问题] 关于R的速度Wush978 [问题] 如何比较两串ID，计算其命中率btoco