[问题] 移除WordNet以外的字 nina8598 PTT批踢踢实业坊

[问题] 移除WordNet以外的字

楼主: nina8598 (Nina) 2017-12-13 22:43:20

[问题类型]:
我想用R 做某件事情，但是我不知道要怎么用R 写出来
[软件熟悉度]:
新手
[问题叙述]：
小妹最近在做资料清理
但资料来源是社群网站的留言，所以有很多不同的语言和没有意义的词
我已经把非英文的字删掉了，如下方程式码 (files是指多个txt档)
for (i in 1:length(files)) {
files[[i]] <- gsub('[^ -~]', '', files[[i]]) # remove non-English
}
wordcorpus <- Corpus(VectorSource(files)) #形成我的语料库
但还是有词是由英文字母组成的其他国家文字留着(例如德文Spielzeug、波兰文Zabawki
…)，或是留言者打错字等无法意会的词留着
因此我想用R的package “wordnet”
让我的资料内容对应WordNet字典里的词，
只要不是属于这字典里面的词就移除掉，
但我实在是不知道该怎么做，想请问有高手可以解决吗?
另外想请问如果要用这个方法要先把词形还原吗?如果需要又该如何做呢?
剩下的一般移除停止词、数字、标点符号我都ok，
就剩这些问题需要解决，麻烦大家帮帮忙了谢谢~

作者: kial (夏澄) 2017-12-14 20:05:00

找个常用3000字或5000字做成索引，用grepl筛选出来？或是切完后算出现次数，对出现次数少的单字建索引筛掉？

作者: cywhale (cywhale) 2017-12-14 20:27:00

如果用hunspell package 把拼错有疑问的字全部找出来？example https://goo.gl/BwysJM

继续阅读

[问题] 在变量名称前插入逗号NBpoly [分享] nrow, references and copiescywhale [问题] 想要把shiny的 sidebarPanel删掉asdfrtg [问题] 年份前后做比较rusimida [问题] 怎么只选两个比较rusimida [问题] 时间序列资料筛选circusbest [问题] data.table setnames 奇怪的现象 BUQ [问题] R studio 中的plots视窗没作用banduna [问题] 哪里的R才是对的路径？rn940111 [问题] 等深分箱法a83912a