[问题] text2vec 在windows中文显示问题

楼主: taichi53719 (我最讨厌人家装老)   2016-08-16 10:50:48
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
请把以下不需要的部份删除
开发者(有撰写R 的套件经验)
[问题叙述]:
目前使用的是windows R 3.2.5
用套件jiebaR做中文断词,段词的结果没问题
但是要使用text2vec做字词向量化分析就会有乱码的问题
不晓得有没有方法可以修正
另外我在MAC和Linux上使用相同的code显示上都很正确
所以直觉应该是windows设定的问题
还想请问该如何设定中文才可以正确显示
感谢
[程式范例]:
> tw="R: 最流行的统计语言"
> cutter=worker(bylines=TRUE)
> words=segment(tw,cutter)
> words
[[1]]
[1] "R" "最" "流行" "的" "统计" "语言"
> library(text2vec)
>
> #create iterator
> a.token=itoken(words)
>
> a.vocab<-create_vocabulary(a.token, ngram=c(1, 1))
> a.vocab
$vocab
terms terms_counts doc_counts
1: 隤靗\xa8\u0080 1 1
2: 蝯梯\xa8\x88 1 1
3: \xe7\x9a\x84 1 1
4: \xe6\x9c\u0080 1 1
5: 瘚眎\xa1\x8c 1 1
6: R 1 1
$ngram
ngram_min ngram_max
1 1
$document_count
[1] 1
$stopwords
character(0)
attr(,"class")
[1] "text2vec_vocabulary"
[环境叙述]:
R version 3.2.5 (2016-04-14)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
[关键字]:
jiebaR;text2vec;中文断词
作者: JamesChen (James)   2016-08-16 12:21:00
编码问题吧 R 我不熟 但解决方法可能是转码
作者: cywhale (cywhale)   2016-08-16 14:22:00
library(stringi); stri_encode(words,"UTF-8")
楼主: taichi53719 (我最讨厌人家装老)   2016-08-16 16:37:00
感谢推文回复,测试了用stri_encode可以转码回来但是没办法从套件源头修正,不过单纯看结果还行

Links booklink

Contact Us: admin [ a t ] ucptt.com