Re: [心得] 资料整理套件介绍-第二章 dplyr(上)

楼主: Wush978 (拒看低质媒体)   2015-07-22 22:38:44
dplyr 这个套件除了可以对R 的data.frame做处理之外,
也可以对SQL-like Data Source做资料ETL。
所以我是非常推荐版友把时间投资在这类套件之上。
这里分享我一个实务经验与玩具专案:
https://github.com/wush978/dplyrSparkSQL
我利用这个套件串接Apache Spark这个高效能资料处理平台,
只要利用和dplyr完全一样的语法,
可以轻松在一分钟内处理亿笔资料的整理。
我认为这类的接口会越来越多,因为不算难扩充(我自己花一个周末就写了一个)
所以花时间投资dplyr ,未来的潜力是满高的。
作者: celestialgod (天)   2015-07-22 22:43:00
当初要提这点也忘记了,感谢版大
楼主: Wush978 (拒看低质媒体)   2015-07-22 23:05:00
你写得很棒,我只是锦上添花罢了
作者: celestialgod (天)   2015-07-22 23:14:00
谢谢,不过版大提到的也很重要,这个套件不只在资料整理方面还有其他值得投资的点,像是sql的api等等
作者: hyekyo0608 (鱼)   2015-07-23 09:22:00
跟着强者学习,觉得很幸运^^

Links booklink

Contact Us: admin [ a t ] ucptt.com