[问题] R 如何计算 txt 档案中每个字出现的频率 toxicsweet PTT批踢踢实业坊

[问题] R 如何计算 txt 档案中每个字出现的频率

楼主: toxicsweet (toxic) 2016-06-08 07:05:29

[问题类型]: 程式咨询
[软件熟悉度]:
介于入门和使用者之间
[问题叙述]:
手边有个txt文件，目前先使用read.table读进R后，原本想使用text mining 的package
(tm)来计算出每个字出现的频率。
以一个两列的文件为例：
第一列：I like it, can you share it?
第二列：Yes, I would like to!
想得到：
I like it can you share yes would to
2 2 2 1 1 1 1 1 1
但翻了一下tm package还是不知道该怎么套用，或是有其他作法可以得到呢？

作者: JackBaska (Baska) 2016-06-08 07:42:00

英文吗 ? 英文的话比较好处理, strsplit用 " " 隔开然后合并成一维向量后做元素统计就好了

作者: Wush978 (拒看低质媒体) 2016-06-08 10:11:00

量大吗？

楼主: toxicsweet (toxic) 2016-06-08 18:25:00

英文，量很大，档案约有200MB这边只是举两列的例子，但实际有超过百万列。

作者: Wush978 (拒看低质媒体) 2016-06-08 18:59:00

tm_lite?

楼主: toxicsweet (toxic) 2016-06-09 10:24:00

tmlite里面的哪个functiin可以做到这件事呢？

继续阅读

Re: [问题] 零基础的网页Parse?celestialgod [问题] 零基础的网页Parse?Edster [问题] COX-PH model什么情况下要用ties="exact"amber219212 Re: [问题] Rstudiojimmm [问题] 选取list中特定部分laputaca Re: [问题] table问题(网页编码)celestialgod Re: [问题] table问题(网页编码)vicror84 Re: [问题] 格式转换celestialgod [问题] 格式转换clansoda Re: [问题] table问题(网页编码)celestialgod