※ 引述《helixc (@_2;)》之铭言:
: [软件熟悉度]:
: 新手+入门
: [问题叙述]:
: 如标题,因为再分析鸟类的资料,所以会遇到鸻、鸊、鷉这种某些系统无法显示的字
: 和程式语言不太熟,好像是BIG5的编码比较少,所以遇到这些怪字会崩溃,
: 转到UTF8就会恢复正常?
: 问题是目前手边的名录都是放在Excel当中,
: 这些怪字在Excel当中活得很好,但一输出成CSV等纯文字文件就会变成乱码。
: 我再去Notepad++等软件转换编码也没有用。
: [程式范例]:
: 鸟类名录资料在下面:
: https://dl.dropboxusercontent.com/u/18689552/birdnames.xls
: 另外我在NotePad++自己打了一个用UTF-8编码的档案如下:
: https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt
: 里面只有两行字:
: 173,反嘴鸻,长脚鹬科
: 174,水雉,水雉科
txt部分:
read.table, read.csv加上encoding = "UTF-8"只能读到第二行
但下面这个有成功:
readLines("birdnametest.txt", encoding = "UTF-8") %>%
strsplit(",") %>% do.call(rbind, .)
# [,1] [,2] [,3]
# [1,] "173" "反嘴鸻" "长脚鹬科"
# [2,] "174" "水雉" "水雉科"
http://imgur.com/1Gsldsu
另外 fread不能调encoding,完全读不进去,iconv也失败(摊手
xls部分:
好读上色版:http://pastebin.com/2L5UrhSq
library(rJava)
library(xlsx)
library(data.table)
library(magrittr)
fileName = "birdnames.xls"
original_data = read.xlsx2(fileName, 1,
header=TRUE, encoding = "UTF-8", as.data.frame=FALSE) %>%
do.call(cbind, .) %>% data.table()
# data.table在这里是非必要,为了后面的setnames而用的
data_names = read.xlsx2(fileName, 1,
header=FALSE, startRow=1, endRow=1, encoding = "UTF-8",
as.data.frame=FALSE) %>% unlist() # 这行是因为header通常读不进去要手动
original_data %<>% setnames(data_names)
# setnames是data.table的function,提供不复制直接重新命名data.table的方法
# 如果前面不用data.table,这里可以改成用magrittr的set_names
# 或是直接用names() <-
original_data$c_name
http://imgur.com/XyK5d0f
http://imgur.com/c97dRSQ
# readxl套件: (不用JAVA,读取也比较快,也不会转换字串为factor)
library(readxl)
dat = read_excel("birdnames.xls")
dat$c_name
补上session information:
> sessionInfo()
R version 3.2.1 (2015-06-18)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950
[2] LC_CTYPE=Chinese (Traditional)_Taiwan.950
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.950
[4] LC_NUMERIC=C
[5] LC_TIME=Chinese (Traditional)_Taiwan.950