版友们好~
最近刚学Scala, 有个问题卡了很久
当我把档案用RDD读进来:
val input = sc.textfile("myfile.txt")
接着逐行读取这个档案(RDD),
在里面用一个容器(HashMap, Array, List之类的)储存每一行的一些资讯
例如:
input.foreach{line=>
var value = line.toInt
hashmap.put(value,1) // hashmap是在外面先定义好的一个HashMap容器
}
因为RDD本身是分布式被serilize到各个node(?),
所以不会去更新我传到里面的hashmap, 这个hashmap在foreach以外依然是空的~
请问我是否有任何办法能把foreach里面的hashmap传出来,以便下一步处理呢~?
小弟新手, stackoverflow跟google找了两天都没啥头绪~
还请高手指点~!! 感谢~!