Re: [SQL ] 滚动计算并回传

楼主: Wengboyu ( )   2020-10-13 11:23:12
※ 引述《Wengboyu ( )》之铭言:
: 数据库名称:SAS SQL
: 数据库版本:9.4
: 内容/问题描述:
: 我有table a和b
: table a
: date SID doctor
: 2019/1/1 a jack
: 2019/1/2 a jack
: 2019/1/3 a jack
: 2019/2/1 b ben
: 2019/2/2 b ben
: 2019/2/3 b ben
: ...
: 2019/2/15 b mark
: 2019/2/16 b mark
: 2019/2/17 b mark
: table b
: date SID doctor
: 2018/1/1 a jack
: 2018/1/2 b jack
: 2018/1/3 c jack
: 2018/1/15 a jack
: 2018/1/31 a ben
: 2018/3/1 b ben
: 2018/3/1 c mark
: 2018/4/16 d mark
: 2018/4/21 c mark
: 我要得到下面的结果
: table c
: date SID doctor doctor_service_volume
: 2019/1/1 a jack 3
: 2019/1/2 a jack 3
: 2019/1/3 a jack 2
: 2019/2/1 b ben 1
: 2019/2/2 b ben 1
: 2019/2/3 b ben 1
: ...
: 2019/2/15 b mark 2
: 2019/2/16 b mark 2
: 2019/2/17 b mark 2
: 我要计算table a每一笔,a.doctor在a.date过去一年内收过多少病人(不重复)
: table b是处方签资料
: 例如:
: first row in table a
: date SID doctor
: 2019/1/1 a jack
: 我就要从table b中去找docor jack在a.date和(a.date - 1 year)间
: 收了多少不重复的病人
: table b doctor jack 在2018/1/1 ~ 2019/1/1开过处方签的病人
: date SID doctor
: 2018/1/1 a jack
: 2018/1/2 b jack
: 2018/1/3 c jack
: 2018/1/15 a jack (重复)
: 所以a.doctor_service_volume = 3
: 我自己写的code如下
: Proc sql;
: create table want as select
: a.*, (select count(distinct b.SID)
: from
: dataset a, dataset b
: where
: a.DoctorID = b.DoctorID and a.DoctorID is not missing and
: b.prescriptiondate between a.prescriptionBeginDate and
: intnx('year', a.PrescriptionBeginDate, -1, 'same'))
: as service_volume
: from
: dataset a, dataset b;
: quit;
: 因为跑很久,我不太确定这样写是不是可以得到我要的结果..
: table a 有240万笔,b有1600万笔
: 如果大家要测试自己code写得对不对,会怎么弄?
→ MOONY135: 这种的就不太会一次捞完 可能就atable的一笔开始捞这样10/05 15:29
推 chippclass: https://i.imgur.com/TU3UBRi.png 我选择这样做10/06 00:12
→ Wengboyu: 感谢,让我试试看结果如何10/06 13:34
SAS sql的code还是有些不同,我做了一些改写碰到了一些小问题
###
Proc sql;
create table want as
select *, count(*) as doctor_service_volume from
(select distinct a.*, b.SID from a left join b
on a.DoctorID = b.DoctorID &&
a.date >= b.date &&
b.date >= intnx('year', a.date, -1, 'same')
)
group by
date, SID, DoctorID;
quit;
###
会得到下面的结果
table c
date SID doctor doctor_service_volume
2019/1/1 a jack 3
2019/1/1 a jack 3
2019/1/1 a jack 3
2019/1/2 a jack 3
2019/1/2 a jack 3
2019/1/2 a jack 3
2019/1/3 a jack 2
2019/1/3 a jack 2
2019/2/1 b ben 1
2019/2/2 b ben 1
2019/2/3 b ben 1
...
2019/2/15 b mark 2
2019/2/15 b mark 2
2019/2/16 b mark 2
2019/2/16 b mark 2
2019/2/17 b mark 2
2019/2/17 b mark 2
也就是他算到多少次doctor_service_volume,就会重复多少次
doctor_service_volume是算对了,但资料变超级大
就算在选取时,再加上distinct也是一样的结果
###
Proc sql;
create table want as
select distinct *, count(*) as doctor_service_volume from
(select distinct a.*, b.SID from a left join b
on a.DoctorID = b.DoctorID &&
a.date >= b.date &&
b.date >= intnx('year', a.date, -1, 'same')
)
group by
date, SID, DoctorID;
quit;
###
问题应该是在蓝绿色那块,它把所有符合条件的全部都输出一次
而不是只有doctor_service_volumn
以上是测试的结果,有可能是我改写的方式错了
我目前还在想该怎么处理
感谢chippclass帮忙
作者: MOONY135 (谈无欲)   2019-10-05 15:29:00
这种的就不太会一次捞完 可能就atable的一笔开始捞这样
作者: chippclass (善假狼赚钱中)   2019-10-06 00:12:00
楼主: Wengboyu ( )   2019-10-06 13:34:00
感谢,让我试试看结果如何

Links booklink

Contact Us: admin [ a t ] ucptt.com