[问题] 读入"鸻" "鸊鷉" 等怪字

楼主: helixc (@_2;)   2015-07-04 00:04:49
[软件熟悉度]:
新手+入门
[问题叙述]:
如标题,因为再分析鸟类的资料,所以会遇到鸻、鸊、鷉这种某些系统无法显示的字
和程式语言不太熟,好像是BIG5的编码比较少,所以遇到这些怪字会崩溃,
转到UTF8就会恢复正常?
问题是目前手边的名录都是放在Excel当中,
这些怪字在Excel当中活得很好,但一输出成CSV等纯文字文件就会变成乱码。
我再去Notepad++等软件转换编码也没有用。
[程式范例]:
鸟类名录资料在下面:
https://dl.dropboxusercontent.com/u/18689552/birdnames.xls
另外我在NotePad++自己打了一个用UTF-8编码的档案如下:
https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt
里面只有两行字:
173,反嘴鸻,长脚鹬科
174,水雉,水雉科
直接用read.table,产生怪字,而且还只读一行
data<-read.table("birdnametest.txt"); data
V1
1 174,瘗涌\x9b\x89,瘗涌\x9b樯\xa7\x91\n
加上eocoding="UTF-8"之后怪字不见了,难字(鸻)没出来,但一样只有一行
有需要的话是可以在Notepad++硬做一个UTF-8的档案出来啦,
名录最多也不超过700种可以用工人智慧来完成,
但也要R能够读入并显示呀Orz
系统资讯:
不太会查,写一下知道的:
Windows 7
RStudio Version 0.99447
R x64 3.2.1
作者: celestialgod (天)   2015-07-04 01:01:00
你可以读入用是utf8 做为encoding 或是干脆用读xls他的编码也是默认为utf8... (读取xls的套件之前有文章讨论)明天实测看看...
作者: obarisk (OSWALT)   2015-07-04 06:31:00
无解windows里的终端机没utf8
楼主: helixc (@_2;)   2015-07-04 09:14:00
换Mac/Linux就有解吗?
作者: obarisk (OSWALT)   2015-07-04 11:03:00
不会遇到这问题吧

Links booklink

Contact Us: admin [ a t ] ucptt.com