[软件熟悉度]:
新手+入门
[问题叙述]:
如标题,因为再分析鸟类的资料,所以会遇到鸻、鸊、鷉这种某些系统无法显示的字
和程式语言不太熟,好像是BIG5的编码比较少,所以遇到这些怪字会崩溃,
转到UTF8就会恢复正常?
问题是目前手边的名录都是放在Excel当中,
这些怪字在Excel当中活得很好,但一输出成CSV等纯文字文件就会变成乱码。
我再去Notepad++等软件转换编码也没有用。
[程式范例]:
鸟类名录资料在下面:
https://dl.dropboxusercontent.com/u/18689552/birdnames.xls
另外我在NotePad++自己打了一个用UTF-8编码的档案如下:
https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt
里面只有两行字:
173,反嘴鸻,长脚鹬科
174,水雉,水雉科
直接用read.table,产生怪字,而且还只读一行
data<-read.table("birdnametest.txt"); data
V1
1 174,瘗涌\x9b\x89,瘗涌\x9b樯\xa7\x91\n
加上eocoding="UTF-8"之后怪字不见了,难字(鸻)没出来,但一样只有一行
有需要的话是可以在Notepad++硬做一个UTF-8的档案出来啦,
名录最多也不超过700种可以用工人智慧来完成,
但也要R能够读入并显示呀Orz
系统资讯:
不太会查,写一下知道的:
Windows 7
RStudio Version 0.99447
R x64 3.2.1