Re: [问题] NLP英文文章处理

楼主: Darlsa (WSP)   2018-03-14 21:25:50
嗨,我之前处理tm的时候,也有遇到同样的问题,
我要抓双字词的出现频率,但tm包都会直接分成两个字,
例如“social design”会被分成“social”跟“design”,
我的做法是直接把两个字的空格去掉,黏在一起,然后用gsub()把原文替换成黏起来的,
这样tm包在处理的时候,就会认为是一个单字了。
希望能够解决你的问题。
※ 引述《piercelin (pierce)》之铭言:
: [问题叙述]:
: 大家好,最近在练习用R跑NLP,目前处理英文文章,在断词方面我想使用自己的
: 词库进行断词,例如文章中"My name is Pierce",正常断词会断在空格处变成"My" "name"
: "is" "Pierce",但我想使用自己的词库让断词变成:"My name" "is" "Pierce"。
: 目前Google关键字name entity recognition已经搜寻过,试过openNLP package,
: 但都没有办法达到我想要的效果(使用自己的词库进行断词),请问其他有经验的大大有
: 什么解决的办法吗?
: [环境叙述]:
: R version 3.4.2 (2017-09-28)
: Platform: x86_64-w64-mingw32/x64 (64-bit)
: Running under: Windows >= 8 x64 (build 9200)
: [关键字]:
: NLP、断词、name entity recognition
作者: newdawn1106 (mao)   2018-03-16 19:12:00
谢谢你,你的方法我目前正在尝试,成功了再上来回复给可能需要的人
作者: piercelin (pierce)   2018-03-25 14:11:00
感谢D大的分法,英文断词确实比较难像中文依样给予自订词库(原谅小弟不才QQ),靠着大大的方法成功解决问题,谢谢!

Links booklink

Contact Us: admin [ a t ] ucptt.com