[问题] 关于Text mining tm包的问题 jackhzt PTT批踢踢实业坊

[问题] 关于Text mining tm包的问题

楼主: jackhzt (巴克球) 2016-02-17 09:40:11

[问题类型]:程式咨询关于tm包
[问题叙述]:最近在作文本分析，其中tm的使用方式有一些问题
1.无法用inspect()这函数将我要的内容展现出来
2.想要用segmentCN这函数取"名词"做分析但是抽取出来失败
g2=function(data) {
w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
[程式范例]: 以下是我的code:
rm(list=ls())
library("rJava")
library("Rwordseg")
library("tm")
library("tmcn")
library("wordcloud")
g2=function(data) { w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
d.corpus=Corpus(DirSource("D:\\bigdata\\testR\\word\\三国
",encoding="UTF-8"),list(language=NA))
#读目录
d.corpus=tm_map(d.corpus,removeNumbers)
#删数字
d.corpus=tm_map(d.corpus,removePunctuation)
#删空白
d.corpus=tm_map(d.corpus, content_transformer(function(word)
{gsub("[A-Za-z0-9]", "", word)}))
#整理
segment.options(isNameRecognition = F)
d.corpus=tm_map(d.corpus[1:120],content_transformer(g2),nature=T)
#断辞
d.corpus=tm_map(d.corpus, removeWords, stopwordsCN())
#去掉没用的字
d.corpus=Corpus(VectorSource(d.corpus))
#储存
inspect(d.corpus)
主要是问题二，一直失败 ....
[关键字]:tm 、text mining

作者: wheado (principal component QQ) 2016-02-28 20:22:00

因为segmentCN出来是list

楼主: jackhzt (巴克球) 2016-02-29 19:33:00

所以我应该用unlist的方式吗? 不太了解

继续阅读

[问题] 中文字转成数字clansoda [问题] 资策会Big data三部曲skyuf003352 [问题] 关于ptt字库jackhzt [问题] Gwr套件frank61003 [问题] make_function vs functionming790925 [分享] Strategies to Speedup R Codecelestialgod Re: [问题] 自写函数之变项规律命名celestialgod [问题] snow 平行运算b10009047 [问题] 自写函数之变项规律命名wanson [问题] ggplot contour 使用方式girl5566