Re: [问题] 资料整理的问题

楼主: celestialgod (天)   2016-12-05 17:56:46
※ 引述《ppp1987 (ppp)》之铭言:
: [问题类型]:
: 程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
: [软件熟悉度]:
: 入门(写过其他程式,只是对语法不熟悉)
: [问题叙述]:
: 资料形式
: ID Day X
: 1 1 0.5
: 1 3 0.1
: 1 4 0.3
: 1 7 0.5
: 1 9 0.5
: 1 11 0.2
: 1 14 0.5
: 2 1 0.1
: 2 2 0.4
: 2 5 0.8
: 2 9 0.7
: 2 11 0.1
: 2 13 0.2
: 现在我的资料每个ID(有100多个ID)每天有一笔观测值(但不一定每天有)
: 我现在想要算每个ID当天的前七天有观测值的平均
: 例如
: (ID=1,Day=9) Xhat=(0.5+0.3+0.1)/3
: (ID=2,Day=11) Xhat=(0.7+0.8)/2
: 现在已经用for循环跑出结果(但是很慢 2万多笔约30分钟)
: 想请教各位大大有没有比较快的方法
: 谢谢
cy大的方法应该比较快XD
不过我还是把我的方法写出来...
library(data.table)
library(pipeR)
library(zoo)
library(plyr)
DT <- fread('ID Day X
1 1 0.5
1 3 0.1
1 4 0.3
1 7 0.5
1 9 0.5
1 11 0.2
1 14 0.5
2 1 0.1
2 2 0.4
2 5 0.8
2 9 0.7
2 11 0.1
2 13 0.2')
DT[ , Day := factor(Day, levels = seq(min(DT$Day), max(DT$Day)))]
mean2 <- function(x) {
if (length(x) == 1)
return(NA)
mean(head(x, length(x) - 1), na.rm = TRUE)
}
DT2 <- dcast.data.table(DT, ID ~ Day, sum, fill = NA, drop = FALSE,
value.var = "X")
meanDT <- DT2[ , 2:ncol(DT2)] %>>% as.matrix %>>% t %>>%
rollapply(8, mean2, partial = TRUE, align = "right") %>>% data.table %>>%
melt.data.table(measure.var = 1:ncol(.), variable.name = "ID",
value.name = "x_mean", variable.factor = FALSE) %>>%
`[`(j = Day := 1:(ncol(DT2)-1), by = .(ID)) %>>%
`[`(j = ID := as.integer(mapvalues(ID, paste0("V", 1:nrow(DT2)), DT2$ID)))
merge(DT, meanDT, by = c("ID", "Day"))
# ID Day X x_mean
# 1: 1 1 0.5 NA
# 2: 1 3 0.1 0.5000000
# 3: 1 4 0.3 0.3000000
# 4: 1 7 0.5 0.3000000
# 5: 1 9 0.5 0.3000000
# 6: 1 11 0.2 0.4333333
# 7: 1 14 0.5 0.4000000
# 8: 2 1 0.1 NA
# 9: 2 2 0.4 0.1000000
# 10: 2 5 0.8 0.2500000
# 11: 2 9 0.7 0.6000000
# 12: 2 11 0.1 0.7500000
# 13: 2 13 0.2 0.4000000
稍微改一下cy大的code,让他跟我的output一致
做了一点benchmark,code: http://pastebin.com/Msib1dEh
我的作法会明显慢一点,三万列差大概一秒,cy大的做法比较好
作者: cywhale (cywhale)   2016-12-05 22:25:00
感谢好读版~推
作者: ppp1987 (ppp)   2016-12-06 16:11:00
感谢版主~

Links booklink

Contact Us: admin [ a t ] ucptt.com