※ 引述《AmuroRai (SIEG ZEON!!!!!!)》之铭言:
: [问题类型]:
: 程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
: [软件熟悉度]:
: 入门(写过其他程式,只是对语法不熟悉)
: [问题叙述]:
: 最近开始在学用R写爬虫,而今天下午试着要爬证交所的股票代码列表时发现他们似乎
: 是使用MS950编码,但是这个编码R却无法认得。(参见程式码部分)
: 后来还有试过用utf-8和big5硬推,也试着用tmcn去转码,但是中文部分还是只得到乱码。
: 因此想请问是否有什么方法可以绕过这个问题?
: (把原网页资料抓下来存成csv转码后再丢给R不在考虑之列)
: [程式范例]:
: 只附上一开始用MS950的程式码,big5和utf-8的结果大同小异。
: 另外最后res和ress的output不知道为什么无法完整贴上,但总之遇到中文都是乱码就是了
library(RCurl)
library(stringi)
urlToGet = "http://isin.twse.com.tw/isin/C_public.jsp?strMode=2"
htmlFile = getURLContent(urlToGet)
htmlFileEncodingUTF8 = stri_encode(html_file,
attr(html_file, "Content-Type")[2], "utf8")
Encoding(htmlFileEncodingUTF8)
# [1] "UTF-8"