[问题] r做nlp发现新词的套件

楼主: empireisme (empireisme)   2020-05-04 23:41:08
如题
我想问问看
如果想用r发现新词,是否有相关的nlp套件或关键字(中文新词为主)
我打find new word 或 discover new word好像都有点不太对
作者: allen1985 (我要低调 拯救形象)   2020-05-05 11:16:00
什么是发现新词? 一个词不在字典里?还是NER model
楼主: empireisme (empireisme)   2020-05-05 12:31:00
对就是一个新词不在词典里,例如习大大之类的
作者: locka (locka)   2020-05-05 18:01:00
应该都可以自订词库吧?
楼主: empireisme (empireisme)   2020-05-05 18:57:00
自订词库要依靠人力,想要利用统计方法发现新词
作者: locka (locka)   2020-05-05 21:00:00
不确定目前有没有套件可以做到你想做的,用统计方法自动产生新词…因为中文不像英文用空格分格;每个中文字都各自有意思,连接起来可能又有新的意思,连接到多长停止也没有规则…所以好像输入进词库给模型训练好像是比较常见的做法@@(跪求版上NLP专家)刚刚查了一下,一楼allen大大说的NER model好像就是用深度学习方法自动做断词,原po或许可以找找看有没有用R做这个的套件(抱歉上面废话太多QQ)
作者: xiangying (xiangying)   2020-05-06 15:12:00
有一个颇简单的方式是用中研院的ckiptagger,有支援做ner model,不过你要先将它用reticulate移植到R上,google一下有人做好
楼主: empireisme (empireisme)   2020-05-06 19:17:00
谢谢我来看一下什么是reticulate

Links booklink

Contact Us: admin [ a t ] ucptt.com