Re: [问题]htmlParse celestialgod PTT批踢踢实业坊

Re: [问题]htmlParse

楼主: celestialgod (å¤©) 2015-05-04 12:53:10

: [问题类型]:
: 程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
:
: [问题叙述]:
: 1.请问htmlParse返回的结果是否有size限制?
: 我用下面一段code htmlParse返回只有到[[288]],似乎没有抓完?
: 如果是size的限制有办法解决吗?
这我不知道，但是我用RCurl有抓到全部，直接htmlParse就失败了：
test_doc = getURL(URL,.encoding="big5")
test = htmlParse(test_doc, encoding="big5")
test["//tr"] %>% str() # List of 11655
test_doc = htmlParse(URL,encoding="big5")
test = test_doc["//tr"] %>% str() # List of 288
: 2.我试着用readLines读同样的网址,但因没有换行符号,所有的资料只存成一行,
: 处里这一类没有换行符号的网址,有什么好方法呢?
readLines之后用gsub把你要断行的地方放进去
EX:
我要把每一个开始或结束的tag后面都放置一个断行，
这个要用一些regular expression的知识
gsub("(</?[^>]*>)", "\\1\\\n", "<tr><td bgcolor=\"#FAFAD2\" colspan=\"7\">
股票 </td></tr>") %>% sprintf("%s", .) %>% cat()
output:
<tr>
<td bgcolor="#FAFAD2" colspan="7">

股票 


</td>
</tr>

作者: sorder (Reader) 2015-05-05 01:42:00

我用getURL抓出来是完整的,带入htmlParse出来还是只有部分,这个结果和你看起来不一样~奇怪~@@"谢谢你的回答,我再研究一下regular expression.^^

楼主: celestialgod (å¤©) 2015-05-05 08:18:00

可能跟R版本有关，他应该是有修正我用最新版的3.2.0

作者: sorder (Reader) 2015-05-05 23:55:00

我也是跟你一样的版本~^^

楼主: celestialgod (å¤©) 2015-05-06 00:02:00

那我真的不知道问题了...

作者: sorder (Reader) 2015-05-06 12:28:00

没关系,谢谢你的回答。

继续阅读

[问题]htmlParse sorder Re: [问题] 多栏资料循环处理Wush978 [问题] 多栏资料循环处理sinclairJ [问题] 让 shiny 发出声音psinqoo [问题] 如何取代掉<U+00A0>这种字串tytony [问题]用getURL抓台股代码 encoding问题sorder 关于自订函数lofu [问题] 电脑跑不动问题...sinclairJ Re: [问题] 合并类别变量的count (table)celestialgod [问题] 合并类别变量的count (table)sinclairJ