[问题] 读取中文档案 sansea PTT批踢踢实业坊

[问题] 读取中文档案

楼主: sansea (情弑月) 2015-03-05 16:14:47

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式，只是对语法不熟悉)
[问题叙述]:
想要抓PTT的资料来断词
目前已经可以抓到资料并存成中文档案
可是利用 Corpus(DirSource("docs", encoding = 'UTF-8')) 读取的时候
中文字全部变成 <U+ 开头的字串
把查询结果存到 TermDocumentMatrix
用 inspect 看结果应该是有断成功
可是全部都变成奇怪的字了阿....
想请问怎么把中文字找回来QQ
===已解决===
原本是在Win8.1上开发
换到Win7环境就没问题了
[程式范例]:
程式码可以看这边 http://ideone.com/icNr73

作者: psinqoo (é›¶åº¦ç©ºé–“) 2015-03-05 19:31:00

R的版本?

楼主: sansea (情弑月) 2015-03-05 22:40:00

3.1.2

我猜把R 版本下降就OK

继续阅读

[问题] install.package疑问LouisPion [问题] 请教指派运算(<-)和等号(=)有什么不同？LouisPion [问题] data.table可以操作的资料量squallscer Re: [问题] 关于重复测量资料aaron77217 Fw: [程式] R: TRUE FALE 的问题celestialgod [分享] faster R in windowscelestialgod Re: [问题] 关于重复测量资料celestialgod [问题] 关于重复测量资料yummy7922 Re: [问题] 想利用data.table将Rawdata切割字段celestialgod Re: [问题] 想利用data.table将Rawdata切割字段sacidoO