[问题] text mining 长词优先

楼主: john5601 (HTC粉)   2015-07-22 22:04:44
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
目前在作英文的文字探勘,已经可以分别算出单词和双词的结果
举例 :
"Information management" 在文章中出现3次
"Information"在文章中出现5次
"management"在文章中出现6次
但因为想要长词优先,所以"management"和"Information"的次数要分别减3次

以上为跑出的结果 不知道该如何达成这样的作法
恳请前辈大大指导
[程式范例]:
http://pastebin.com/27rXYuQp 程式码
[环境叙述]:
R version 3.1.2 (2014-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
[关键字]:
text mining
长词优先
作者: celestialgod (天)   2015-07-22 22:51:00
我只想到用grep跟length做一个条件筛选,然后删除,需要两层循环来做,明天有空再来回程式码
楼主: john5601 (HTC粉)   2015-07-22 23:00:00
感谢c大!!!

Links booklink

Contact Us: admin [ a t ] ucptt.com