[问题] data frame转corpus前过滤非英文字词 blackyu PTT批踢踢实业坊

[问题] data frame转corpus前过滤非英文字词

楼主: blackyu (??) 2016-03-19 10:31:46

[问题类型]: 程式咨询
[软件熟悉度]: 入门
[问题叙述]:
大家好，我现在处理data frame时遇到一个问题
我从数据库取出资料后存为data frame的形式
但里面内容语言部份是简体中文、日文等，例如
text
1 今天天气很好...
2 It's good但是...
我现在需要把非英文的字词在转入corpus前先行过滤掉
之前有去stackoverflow找相关的解决办法
目前有找到一篇 http://goo.gl/arqKWi
但是我不太熟如何将data frame先拆解后再过滤
请问有什么方法可以协助我解决这个问题呢？
谢谢各位！
[环境叙述]: R ver 3.2.3；套件：RMySQL & tm

作者: Wush978 (拒看低质媒体) 2016-03-19 12:16:00

你可以先用strsplit把字一个个切出来，然后要求他们只能是a-z, A-Z, 0-9 以及其他你觉得要放的文字或是用jieba断词后，把那些非英文的词通通扔掉你可以试试看jiebaR套件

楼主: blackyu (??) 2016-03-19 14:29:00

谢谢~

继续阅读

[问题] facebook dataclansoda Re: [问题] 去除重复值celestialgod [问题] 去除重复值tHEiPHoNe Re: [问题] parSapply问题celestialgod [问题] parSapply问题SFMAndroid [问题] 新手R爬虫问题xyz6206a Re: [问题] dataframe转换list col name问题celestialgod [问题] dataframe转换list col name问题clansoda [问题] R原文书购买管道dodo4218 Re: [问题] 关于使用者自行输入值的问题celestialgod