[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
请把以下不需要的部份删除
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
1.请问htmlParse返回的结果是否有size限制?
我用下面一段code htmlParse返回只有到[[288]],似乎没有抓完?
如果是size的限制有办法解决吗?
2.我试着用readLines读同样的网址,但因没有换行符号,所有的资料只存成一行,
处里这一类没有换行符号的网址,有什么好方法呢?
[程式范例]:
library(XML)
URL = "http://isin.twse.com.tw/isin/C_public.jsp?strMode=2"
test_doc = htmlParse(URL,encoding="big5")
test = test_doc["//tr"]
output:
......
<tr>
<td bgcolor="#FAFAD2">2352 ?卜??/td>
<td bgcolor="#FAFAD2">TW0002352002</td>
<td bgcolor="#FAFAD2">1996/07/22</td>
<td bgcolor="#FAFAD2">銝箫?</td>
<td bgcolor="#FAFAD2">?饷顺?简閮剖?璆?/td>
<td bgcolor="#FAFAD2">ESVUFR</td>
<td bgcolor="#FAFAD2"/>
</tr>
[[288]]
<tr>
<td bgcolor="#FAFAD2">2353 ?긿/td>
</tr>
[环境叙述]:
R version 3.2.0 (2015-04-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 LC_CTYPE=Chinese
(Traditional)_Taiwan.950 LC_MONETARY=Chinese (Traditional)_Taiwan.950
[4] LC_NUMERIC=C LC_TIME=Chinese
(Traditional)_Taiwan.950
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] rvest_0.2.0 XML_3.98-1.1 RCurl_1.95-4.6 bitops_1.0-6
loaded via a namespace (and not attached):
[1] httr_0.6.1 magrittr_1.5 tools_3.2.0 stringr_0.6.2
[关键字]:
选择性,也许未来有用