[问题] 中英文分割成两变量 pp61022 PTT批踢踢实业坊

[问题] 中英文分割成两变量

楼主: pp61022 (fight) 2017-07-21 13:32:26

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
我有一个变量是字串，里面同时包含中文英文，但没有任何分隔符号。
例如：
[1] "剑桥大学University of Cambridge"
[2] "皇家理工学院（帝国理工学院）Imperial College London"
[3] "加州大学洛杉矶分校University of California-Los Angeles"
[4] "Melbourne University"
......
......
我想把这个变量拆成两个变量
"学校中译", "学校英名"
如：
[1] "剑桥大学", "University of Cambridge"
[2] "皇家理工学院（帝国理工学院）", "Imperial College London"
[3] "加州大学洛杉矶分校" , "University of California-Los Angeles"
[4] NA, "Melbourne University"
...
...
这变量有一部分含中译，一部分只有英文，
因为他中文字长度不一样，没办法直接取个数分割，
不过有中译结尾都是"学院", "大学", "分校"(但并非整个字串的结尾）
刚接触文字清理，对全部函数还没办法通透运用，有搜寻一阵子但都无法达成想要的结果
，想请教版友有没有好方法可以将中英文完整分割成两个变项，谢谢版友。
或是没办法中英文分割，能否只留下英文，之后我再自己串中英文对照，谢谢版友。
[程式范例]:
[环境叙述]:
请提供 sessionInfo() 的输出结果，
里面含有所有你使用的作业系统、R 的版本和套件版本资讯，
让版友更容易找出错误
[关键字]:

作者: cccc12345 (fa65sfs5f5a46sas) 2017-07-21 14:12:00

your_string <- "剑桥大学University of Cambridge"chinese <-strsplit(your_string ,"[a-zA-Z]")[[1]][1]english<-sub(chinese,replacement="",your_string)字串切割基本上除了中文就看Regular Expressions

楼主: pp61022 (fight) 2017-07-21 18:09:00

谢谢您的提醒！我再把Regular expression多摸熟

继续阅读

Re: [问题] time loopcelestialgod Re: [问题] time looppeterwu76 [问题] Rmysql汇入中文会乱码defvocal [心得] 用R连接gooel试算表KKbiger Re: [问题] gtrendR错误讯息不知如何解决cccc12345 [问题] gtrendR错误讯息不知如何解决circlesquare Re: [问题] 请教各位大神，H2O的使用问题sacidoO [问题] 请教各位大神，H2O的使用问题momo123163 [问题] 在plot room 显示 R summary 结果power80203 Re: [问题] 两个矩阵同时操作celestialgod