Re: [问题] R中文编码(MS950)问题 celestialgod PTT批踢踢实业坊

Re: [问题] R中文编码(MS950)问题

楼主: celestialgod (å¤©) 2015-12-30 14:25:26

※ 引述《AmuroRai (SIEG ZEON!!!!!!)》之铭言：
: [问题类型]:
: 程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
: [软件熟悉度]:
: 入门(写过其他程式，只是对语法不熟悉)
: [问题叙述]:
: 最近开始在学用R写爬虫，而今天下午试着要爬证交所的股票代码列表时发现他们似乎
: 是使用MS950编码，但是这个编码R却无法认得。（参见程式码部分）
: 后来还有试过用utf-8和big5硬推，也试着用tmcn去转码，但是中文部分还是只得到乱码。
: 因此想请问是否有什么方法可以绕过这个问题？
: （把原网页资料抓下来存成csv转码后再丢给R不在考虑之列）
: [程式范例]:
: 只附上一开始用MS950的程式码，big5和utf-8的结果大同小异。
: 另外最后res和ress的output不知道为什么无法完整贴上，但总之遇到中文都是乱码就是了
library(RCurl)
library(stringi)
urlToGet = "http://isin.twse.com.tw/isin/C_public.jsp?strMode=2"
htmlFile = getURLContent(urlToGet)
htmlFileEncodingUTF8 = stri_encode(html_file,
attr(html_file, "Content-Type")[2], "utf8")
Encoding(htmlFileEncodingUTF8)
# [1] "UTF-8"

作者: AmuroRai (SIEG ZEON!!!!!!) 2015-12-30 15:51:00

谢谢c大,晚点再来用curl试试

继续阅读

[问题] R中文编码(MS950)问题AmuroRai [问题] quote文字NeiSeHai [问题] 安装RcppBDT遇到errorcywhale Re: [问题] RGoogleAnalyticsjklkj [问题] RGoogleAnalyticsjklkj [问题] 如何读取bmp?girl5566 [问题] 卜瓦松sky84911 Re: [问题] 资料处理的问题celestialgod [问题] 资料处理的问题PILIPALAPON [问题] 无join key之资料整理girl5566