[问题] Spark云端平台的运用? jgj12321 PTT批踢踢实业坊

[问题] Spark云端平台的运用?

楼主: jgj12321 (Creat yourself) 2019-01-10 21:08:59

[问题类型]:
请把以下不需要的部份删除
意见调查(我对R 有个很棒的想法，想问问大家的意见)
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
效能咨询(我想让R 跑更快)
[软件熟悉度]:
新手(没写过程式，R 是我的第一次)
[问题叙述]:
请问整理百万笔的资料用Spark有比用原本Rstudio还快吗?
看很多中文网页都说Spark可以加快速度，有没有人实作过能分享经验的><
用笔电跑资料好慢/_\

作者: Luluemiko (露露) 2019-01-10 21:45:00

看实际资料是多少，百万笔应该是不太能感受到有无spark的差别我猜测的，没实际比过data.table跟spark的差异我的看法是可以更详细描述一下使用的情境比方说效能瓶颈是卡在哪一个步骤的计算

作者: celestialgod (å¤©) 2019-01-11 12:23:00

百万笔的话 data.table还是比较快spark主要是连到server 串接多台server才会快但是网络传输的速度远慢于计算完全划不来....

作者: cywhale (cywhale) 2019-01-11 17:23:00

就是因计算速度>网络传输，所以效能会卡在传输，除非你你资料大到必须靠多台运算而且传输损失的时间已可以忽略

作者: f496328mm (为什么会流泪) 2019-01-12 21:22:00

真的要玩分布式，网络是重点，GOOGLE在这方面有优势他有自己的海底电缆，自己有网络100M的网络很慢，你看看你硬盘、内存传输多快分布式，多台之前怎么联系?就是靠网络网络慢，算得快也没用，终究会被网速限制然后，不是一定要多台才能SPARK他就是分布式系统，你单机就违背当初概念跑很慢，主要原因可能是code写法、笔电弱同一种资料整理，不同R写法，速度可差到10倍以上这样讲好了，1TB data 要建模，单一设备玩不了所以分散给100台电脑，去建 modeldata就是要靠网络传输

作者: celestialgod (å¤©) 2019-01-14 08:44:00

更正楼上说的，单台不见得很慢啦，原po的资料量用不太到spark，多台电脑的话，比较能够用上spark的power，但是多台就是会有网络速度跟运算速度问题，运算太快剩下就会变成都在等传输。至于云端平台的话，传输可能要更久，因为要经过满多层才能到你的电脑，当然还是实际测试比较准还是建议原po把要解决的问题po上来，看看是不是可以用其他方法解决。

作者: evilove (愿意感动就是一种享受) 2019-01-15 12:36:00

如果只是整理资料不考虑用SQL做吗?

作者: f496328mm (为什么会流泪) 2019-01-16 02:52:00

SQL能做的有限

SQL有时候要做到程式只要几行的逻辑可能要写很久而且不见得有比较好的performance但是SQL在处理相对简单的资料前处理还是比较方便

作者: h88129 (SPARROW) 2019-03-29 12:26:00

资料大到内存装不下才需要数据库吧@@ 如果内存够其实用核心去做分散运算就好了可以尝试foreach+doparallel , 真的不行在用MPI的方式去做串接

继续阅读

[问题] 计算天数(非日期差)daybreakya [问题] 循环存图 quantmod rockken [问题] RMySQL in a function不正常dreler1 [问题] 定义运算符号函数问题wheado [问题] for 循环问题gujason9511 [问题] celestialgod [问题] 农历阳历转换il0306 Re: [问题] ggsave cairo family与储存路径的问题hanglong [问题] strptime 与 ggsave 的问题hanglong [问题] R<>Arcgis Rbridge 套件的问题assxass