PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
R_Language
Re: [问题] NLP英文文章处理
楼主:
Darlsa
(WSP)
2018-03-14 21:25:50
嗨,我之前处理tm的时候,也有遇到同样的问题,
我要抓双字词的出现频率,但tm包都会直接分成两个字,
例如“social design”会被分成“social”跟“design”,
我的做法是直接把两个字的空格去掉,黏在一起,然后用gsub()把原文替换成黏起来的,
这样tm包在处理的时候,就会认为是一个单字了。
希望能够解决你的问题。
※ 引述《piercelin (pierce)》之铭言:
: [问题叙述]:
: 大家好,最近在练习用R跑NLP,目前处理英文文章,在断词方面我想使用自己的
: 词库进行断词,例如文章中"My name is Pierce",正常断词会断在空格处变成"My" "name"
: "is" "Pierce",但我想使用自己的词库让断词变成:"My name" "is" "Pierce"。
: 目前Google关键字name entity recognition已经搜寻过,试过openNLP package,
: 但都没有办法达到我想要的效果(使用自己的词库进行断词),请问其他有经验的大大有
: 什么解决的办法吗?
: [环境叙述]:
: R version 3.4.2 (2017-09-28)
: Platform: x86_64-w64-mingw32/x64 (64-bit)
: Running under: Windows >= 8 x64 (build 9200)
: [关键字]:
: NLP、断词、name entity recognition
作者: newdawn1106 (mao)
2018-03-16 19:12:00
谢谢你,你的方法我目前正在尝试,成功了再上来回复给可能需要的人
作者: piercelin (pierce)
2018-03-25 14:11:00
感谢D大的分法,英文断词确实比较难像中文依样给予自订词库(原谅小弟不才QQ),靠着大大的方法成功解决问题,谢谢!
继续阅读
[问题] shiny跑出来的速度很慢
a3236852
Re: [问题] 分割data.frame里的文字(像excel资料剖析)
clansoda
[问题] 分割data.frame里的文字(像excel资料剖析)
a3236852
[问题] 使用R进行购物篮分析
zhiying
[问题] 如何让legend在图表中标示正确的资料
paranoia5201
[问题] NLP英文文章处理
piercelin
[问题] 写write.csv遇到问题
earlywinter
[问题] 汇出xlsx到档案的指定分页
dailylily
[分享] 修改既有的R function内容
Wush978
[问题] 关联式规则有空集合
a3236852
Links
booklink
Contact Us: admin [ a t ] ucptt.com