Re: [问题] dataframe运作embed及修正timedelay首栏

楼主: TreeMan (好啊...)   2019-03-26 11:38:16
library(dplyr)
tao_b %>%
select(乡镇市区, 交易标的, 建物型态, 交易日期, 单价元平方公尺) %>%
arrange(乡镇市区, 交易标的, 建物型态, 交易日期, 单价元平方公尺) %>%
#先把同性质同日期资料分组, 价格以中位数表达, 并将重复样本删除
group_by(乡镇市区, 交易标的, 建物型态, 交易日期) %>%
mutate(单价元平方公尺 = median(单价元平方公尺)) %>%
filter(row_number()==1) %>%
#再次将同性质的资料分组处理, 将各组每笔记录比对上一次交易日之价格
#此时各组第一个的timedelay是NA
group_by(乡镇市区, 交易标的, 建物型态) %>%
mutate(timedelay = lag(单价元平方公尺, n = 2)) %>%
ungroup() %>%
#将所有资料的timedelay之NA转为0, 非NA则保留原值
#计算后两项相减
mutate(timedelay = ifelse(is.na(timedelay), 0, timedelay),
价格差异 = 单价元平方公尺 - timedelay
)
交流整理资料的做法...
作者: paranoia5201 (迈向研究生)   2019-03-27 14:33:00
太神啦!一次搞定,这里果然卧虎藏龙,万分感谢。

Links booklink

Contact Us: admin [ a t ] ucptt.com