[问题] 读入"鸻" "鸊鷉" 等怪字 helixc PTT批踢踢实业坊

[问题] 读入"鸻" "鸊鷉" 等怪字

楼主: helixc (@_2;) 2015-07-04 00:04:49

[软件熟悉度]:
新手+入门
[问题叙述]:
如标题，因为再分析鸟类的资料，所以会遇到鸻、鸊、鷉这种某些系统无法显示的字
和程式语言不太熟，好像是BIG5的编码比较少，所以遇到这些怪字会崩溃，
转到UTF8就会恢复正常？
问题是目前手边的名录都是放在Excel当中，
这些怪字在Excel当中活得很好，但一输出成CSV等纯文字文件就会变成乱码。
我再去Notepad++等软件转换编码也没有用。
[程式范例]:
鸟类名录资料在下面：
https://dl.dropboxusercontent.com/u/18689552/birdnames.xls
另外我在NotePad++自己打了一个用UTF-8编码的档案如下：
https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt
里面只有两行字：
173,反嘴鸻,长脚鹬科
174,水雉,水雉科
直接用read.table，产生怪字，而且还只读一行
data<-read.table("birdnametest.txt"); data
V1
1 174,瘗涌\x9b\x89,瘗涌\x9b樯\xa7\x91\n
加上eocoding="UTF-8"之后怪字不见了，难字(鸻)没出来，但一样只有一行
有需要的话是可以在Notepad++硬做一个UTF-8的档案出来啦，
名录最多也不超过700种可以用工人智慧来完成，
但也要R能够读入并显示呀Orz
系统资讯：
不太会查，写一下知道的：
Windows 7
RStudio Version 0.99447
R x64 3.2.1

作者: celestialgod (å¤©) 2015-07-04 01:01:00

你可以读入用是utf8 做为encoding 或是干脆用读xls他的编码也是默认为utf8... (读取xls的套件之前有文章讨论)明天实测看看...

作者: obarisk (OSWALT) 2015-07-04 06:31:00

无解windows里的终端机没utf8

楼主: helixc (@_2;) 2015-07-04 09:14:00

换Mac/Linux就有解吗？

作者: obarisk (OSWALT) 2015-07-04 11:03:00

不会遇到这问题吧

继续阅读

Re: [问题] plyr celestialgod Re: [问题] plyr psinqoo Re: [问题] 找出重复的资料组helixc [问题] 找出重复的资料组helixc [问题] 文字探勘的stopwordsshihs [情报] R Crawler101 课程报名spiderway Re: [问题] plyr celestialgod [问题] plyr psinqoo [问题] text mining的inspect()shihs Re: [问题] 条件筛选资料psinqoo