PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
R_Language
[问题] r做nlp发现新词的套件
楼主:
empireisme
(empireisme)
2020-05-04 23:41:08
如题
我想问问看
如果想用r发现新词,是否有相关的nlp套件或关键字(中文新词为主)
我打find new word 或 discover new word好像都有点不太对
作者: allen1985 (我要低调 拯救形象)
2020-05-05 11:16:00
什么是发现新词? 一个词不在字典里?还是NER model
楼主:
empireisme
(empireisme)
2020-05-05 12:31:00
对就是一个新词不在词典里,例如习大大之类的
作者:
locka
(locka)
2020-05-05 18:01:00
应该都可以自订词库吧?
楼主:
empireisme
(empireisme)
2020-05-05 18:57:00
自订词库要依靠人力,想要利用统计方法发现新词
作者:
locka
(locka)
2020-05-05 21:00:00
不确定目前有没有套件可以做到你想做的,用统计方法自动产生新词…因为中文不像英文用空格分格;每个中文字都各自有意思,连接起来可能又有新的意思,连接到多长停止也没有规则…所以好像输入进词库给模型训练好像是比较常见的做法@@(跪求版上NLP专家)刚刚查了一下,一楼allen大大说的NER model好像就是用深度学习方法自动做断词,原po或许可以找找看有没有用R做这个的套件(抱歉上面废话太多QQ)
作者:
xiangying
(xiangying)
2020-05-06 15:12:00
有一个颇简单的方式是用中研院的ckiptagger,有支援做ner model,不过你要先将它用reticulate移植到R上,google一下有人做好
楼主:
empireisme
(empireisme)
2020-05-06 19:17:00
谢谢我来看一下什么是reticulate
继续阅读
[问题] 征求对数据库有处理经验家教
alice37
[问题] getsymbols或get.hist.quote失败
eric19980722
[问题] shiny sever内写for loop?
theonee
[问题] 如何读取外部变量?
eco100
[问题] 征求R解题家教
Ventiva
[问题]中文的断句存成data.frame
empireisme
[问题] 爬虫爬不出来
ladie4
[问题] 想要把一个df变成一栏有2个list ^^
mscutechu
[问题] For循环写入matrix
cwz1110
[问题] 多个rda物件存取问题
locka
Links
booklink
Contact Us: admin [ a t ] ucptt.com