Re: [问题] NLP英文文章处理 Darlsa PTT批踢踢实业坊

Re: [问题] NLP英文文章处理

楼主: Darlsa (WSP) 2018-03-14 21:25:50

嗨，我之前处理tm的时候，也有遇到同样的问题，
我要抓双字词的出现频率，但tm包都会直接分成两个字，
例如“social design”会被分成“social”跟“design”，
我的做法是直接把两个字的空格去掉，黏在一起，然后用gsub()把原文替换成黏起来的，
这样tm包在处理的时候，就会认为是一个单字了。
希望能够解决你的问题。
※ 引述《piercelin (pierce)》之铭言：
: [问题叙述]:
: 大家好，最近在练习用R跑NLP，目前处理英文文章，在断词方面我想使用自己的
: 词库进行断词，例如文章中"My name is Pierce"，正常断词会断在空格处变成"My" "name"
: "is" "Pierce"，但我想使用自己的词库让断词变成："My name" "is" "Pierce"。
: 目前Google关键字name entity recognition已经搜寻过，试过openNLP package，
: 但都没有办法达到我想要的效果(使用自己的词库进行断词)，请问其他有经验的大大有
: 什么解决的办法吗?
: [环境叙述]:
: R version 3.4.2 (2017-09-28)
: Platform: x86_64-w64-mingw32/x64 (64-bit)
: Running under: Windows >= 8 x64 (build 9200)
: [关键字]:
: NLP、断词、name entity recognition

作者: newdawn1106 (mao) 2018-03-16 19:12:00

谢谢你，你的方法我目前正在尝试，成功了再上来回复给可能需要的人

作者: piercelin (pierce) 2018-03-25 14:11:00

感谢D大的分法，英文断词确实比较难像中文依样给予自订词库(原谅小弟不才QQ)，靠着大大的方法成功解决问题，谢谢!

继续阅读

[问题] shiny跑出来的速度很慢a3236852 Re: [问题] 分割data.frame里的文字(像excel资料剖析)clansoda [问题] 分割data.frame里的文字(像excel资料剖析)a3236852 [问题] 使用Ｒ进行购物篮分析zhiying [问题] 如何让legend在图表中标示正确的资料paranoia5201 [问题] NLP英文文章处理piercelin [问题] 写write.csv遇到问题earlywinter [问题] 汇出xlsx到档案的指定分页dailylily [分享] 修改既有的R function内容Wush978 [问题] 关联式规则有空集合a3236852