[问题] 计算英文字串中双字符的出现次数 Chihuah PTT批踢踢实业坊

[问题] 计算英文字串中双字符的出现次数

楼主: Chihuah (灰色曼哈顿) 2018-12-10 13:00:22

[问题类型]:
效能咨询(我想让R 跑更快)
[软件熟悉度]:
入门(写过其他程式，只是对语法不熟悉)
[问题叙述]:
我想要统计一个英文字串中，双字母的出现次数，例如:
<input>
aabaaa
abbacazz
input aa ab ac ad ... az ba bb bc ... ca cb cc ... zz
aabaaa 3 1 0 0 0 1 0 0 0 0 0 0
abbacazz 0 1 1 0 1 1 1 0 1 0 0 1
输入资料是一个csv档，内含一个字段<input>，每一笔(行)内容即为一个英文字串
输出资料是新增aa~zz共676个字段，
每一行的英文字串后，加入双字母的出现次数，未出现的为0次
下述程式码是我目前想到的，但是双循环执行mutate(程式第4~10行)，过程速度很慢
想请教对于双字符的统计是否有更好、执行效率更高的写法?
[程式范例]:
以下图片为程式码与注解

以下为程式码原文
file_csv<- read.csv("test.csv",header=TRUE,sep=",")
n <- 1:nrow(file_csv)
patt <- NULL
for(i in 0:25){
for(j in 0:25){
tmp_2char <- paste(intToChar(97+i),intToChar(97+j),sep="")
patt <- c(patt,tmp_2char)
file_csv<-mutate(file_csv,!!tmp_2char:=0)
}
}
m <- length(patt)
for(x in n){
tmp_input <- tolower(as.character(file_csv$input[x]))
file_csv[x,2:(m+1)] <- str_count(tmp_input,patt)
}
[环境叙述]:
R version 3.5.1 (2018-07-02)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
[关键字]:
mutate str_count 双字符出现次数

作者: andrew43 (讨厌有好心推文后删文者) 2018-12-10 13:39:00

参考看看。结构上也是双层（一个for一个sapply）。主要是靠 gregexpr() https://ideone.com/AKO8tG这应该不算快。10000个字串大概要16秒。

作者: x88776544pc (龙飞五丈原) 2018-12-10 14:07:00

先切字串再计数如何 https://ideone.com/0m24lP

作者: obarisk (OSWALT) 2018-12-10 19:16:00

nse的cost蛮大的

https://pastebin.com/Der1EbFy 一万个大概6秒

楼主: Chihuah (灰色曼哈顿) 2018-12-13 12:26:00

感谢前面几位前辈的分享获益良多~ 又学到一些技巧了

继续阅读

[问题] RSelenium 爬虫循环问题hhuscout [问题] R subset问题AmigoSafin Re: [问题] Publish R Shiny app失败asdfrtg Re: [问题] 如何对一组观测值求confidence intervalksherry [问题] 如何对一组观测值求confidence intervalAmigoSafin Re: [问题] 在变量中找出factorandrew43 [问题] 在变量中找出factorAmigoSafin [问题] 请教为何打印不出结果shingai [问题] 读取xls档问题dailylily [问题] 使用R plot likelihood functionAmigoSafin

[问题] 计算英文字串中 双字符的出现次数

[问题] 计算英文字串中双字符的出现次数