Re: [问题] spark 资料减去平均值 thefattiger PTT批踢踢实业坊

Re: [问题] spark 资料减去平均值

楼主: thefattiger (LT) 2018-10-01 20:26:15

※ 引述《comeonbaby (来巴宝贝)》之铭言：
: 目前资料已分成一串tuple存在RDD里面 (ID, Data)
: 目前想做的是将Data值减去其ID的Data平均值
: 例如: (1,10) (1,20) (2,10) 跑完后会变成
: (1,-5) (1,5) (2,0) 这样
: 因为刚接触不太清楚该怎么实作
没用过Spark，但看起起来跟它无关
from collections import defaultdict
x = [(1,10),(1,20),(2,10)] #your data
avg = defaultdict(lambda:[0,0])
for ID,data in x:
avg[ID][0] = (avg[ID][0]*avg[ID][1] + data)/(avg[ID][1]+1)
avg[ID][1] += 1
y = list(map(lambda s:(s[0],s[1]-avg[s[0]][0]),x)) #result

继续阅读

[问题] flask如何让外部电脑连上ggbast [问题] 捞取SQLite资料笔数问题alansyue [问题] spark 资料减去平均值comeonbaby [资讯]2018 NASA-Earth and space!黑客松-Taipeisegundo [问题] 让程式关不掉的方法jas27690 [问题] mac上调整相机影像大小（已解决）spencer10531 [问题] DataFrame的index问题jasonhsu14 [问题] 爬虫问题xm3fu0 [资讯] 2018智慧农业黑客松竞赛(总奖金13万)tainanmei Re: [问题] 新手list问题请教s077022