[问题类型]:程式咨询 关于tm包
[问题叙述]:最近在作文本分析,其中tm的使用方式有一些问题
1.无法用inspect()这函数将我要的内容展现出来
2.想要用segmentCN这函数取"名词"做分析 但是抽取出来失败
g2=function(data) {
w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
[程式范例]: 以下是我的code:
rm(list=ls())
library("rJava")
library("Rwordseg")
library("tm")
library("tmcn")
library("wordcloud")
g2=function(data) { w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
d.corpus=Corpus(DirSource("D:\\bigdata\\testR\\word\\三国
",encoding="UTF-8"),list(language=NA))
#读目录
d.corpus=tm_map(d.corpus,removeNumbers)
#删数字
d.corpus=tm_map(d.corpus,removePunctuation)
#删空白
d.corpus=tm_map(d.corpus, content_transformer(function(word)
{gsub("[A-Za-z0-9]", "", word)}))
#整理
segment.options(isNameRecognition = F)
d.corpus=tm_map(d.corpus[1:120],content_transformer(g2),nature=T)
#断辞
d.corpus=tm_map(d.corpus, removeWords, stopwordsCN())
#去掉没用的字
d.corpus=Corpus(VectorSource(d.corpus))
#储存
inspect(d.corpus)
主要是问题二,一直失败 ....
[关键字]:tm 、text mining