[问题] text mining 长词优先 john5601 PTT批踢踢实业坊

[问题] text mining 长词优先

楼主: john5601 (HTC粉) 2015-07-22 22:04:44

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式，只是对语法不熟悉)
[问题叙述]:
目前在作英文的文字探勘，已经可以分别算出单词和双词的结果
举例 :
"Information management" 在文章中出现3次
"Information"在文章中出现5次
"management"在文章中出现6次
但因为想要长词优先，所以"management"和"Information"的次数要分别减3次

以上为跑出的结果不知道该如何达成这样的作法
恳请前辈大大指导
[程式范例]:
http://pastebin.com/27rXYuQp 程式码
[环境叙述]:
R version 3.1.2 (2014-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
[关键字]:
text mining
长词优先

作者: celestialgod (å¤©) 2015-07-22 22:51:00

我只想到用grep跟length做一个条件筛选，然后删除，需要两层循环来做，明天有空再来回程式码

楼主: john5601 (HTC粉) 2015-07-22 23:00:00

感谢c大!!!

继续阅读

[心得] 资料整理套件介绍-第三章 dplyr(下)celestialgod [心得] 资料整理套件介绍-第二章 dplyr(上)celestialgod [问题] 资料名称变换lambking [心得] 资料整理套件介绍-第一章 data.tablecelestialgod [心得] 资料整理套件介绍-序章 magrittrcelestialgod Re: [问题] [shiny] 如何设计有阶层的input？celestialgod Re: [问题] [shiny] 如何设计有阶层的input？ardodo Re: [问题] [shiny] 如何设计有阶层的input？celestialgod Re: [问题] [shiny] 如何设计有阶层的input？ardodo Re: [讨论] 每行抓取特定值celestialgod