[问题] data frame转corpus前过滤非英文字词

楼主: blackyu (??)   2016-03-19 10:31:46
[问题类型]: 程式咨询
[软件熟悉度]: 入门
[问题叙述]:
大家好,我现在处理data frame时遇到一个问题
我从数据库取出资料后存为data frame的形式
但里面内容语言部份是简体中文、日文等,例如
text
1 今天天气很好...
2 It's good但是...
我现在需要把非英文的字词在转入corpus前先行过滤掉
之前有去stackoverflow找相关的解决办法
目前有找到一篇 http://goo.gl/arqKWi
但是我不太熟如何将data frame先拆解后再过滤
请问有什么方法可以协助我解决这个问题呢?
谢谢各位!
[环境叙述]: R ver 3.2.3;套件:RMySQL & tm
作者: Wush978 (拒看低质媒体)   2016-03-19 12:16:00
你可以先用strsplit把字一个个切出来,然后要求他们只能是a-z, A-Z, 0-9 以及其他你觉得要放的文字或是用jieba断词后,把那些非英文的词通通扔掉你可以试试看jiebaR套件
楼主: blackyu (??)   2016-03-19 14:29:00
谢谢~

Links booklink

Contact Us: admin [ a t ] ucptt.com