[问题] 关于Text mining tm包的问题

楼主: jackhzt (巴克球)   2016-02-17 09:40:11
[问题类型]:程式咨询 关于tm包
[问题叙述]:最近在作文本分析,其中tm的使用方式有一些问题
1.无法用inspect()这函数将我要的内容展现出来
2.想要用segmentCN这函数取"名词"做分析 但是抽取出来失败
g2=function(data) {
w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
[程式范例]: 以下是我的code:
rm(list=ls())
library("rJava")
library("Rwordseg")
library("tm")
library("tmcn")
library("wordcloud")
g2=function(data) { w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
d.corpus=Corpus(DirSource("D:\\bigdata\\testR\\word\\三国
",encoding="UTF-8"),list(language=NA))
#读目录
d.corpus=tm_map(d.corpus,removeNumbers)
#删数字
d.corpus=tm_map(d.corpus,removePunctuation)
#删空白
d.corpus=tm_map(d.corpus, content_transformer(function(word)
{gsub("[A-Za-z0-9]", "", word)}))
#整理
segment.options(isNameRecognition = F)
d.corpus=tm_map(d.corpus[1:120],content_transformer(g2),nature=T)
#断辞
d.corpus=tm_map(d.corpus, removeWords, stopwordsCN())
#去掉没用的字
d.corpus=Corpus(VectorSource(d.corpus))
#储存
inspect(d.corpus)
主要是问题二,一直失败 ....
[关键字]:tm 、text mining
作者: wheado (principal component QQ)   2016-02-28 20:22:00
因为segmentCN出来是list
楼主: jackhzt (巴克球)   2016-02-29 19:33:00
所以我应该用unlist的方式吗? 不太了解

Links booklink

Contact Us: admin [ a t ] ucptt.com