dplyr 这个套件除了可以对R 的data.frame做处理之外,
也可以对SQL-like Data Source做资料ETL。
所以我是非常推荐版友把时间投资在这类套件之上。
这里分享我一个实务经验与玩具专案:
https://github.com/wush978/dplyrSparkSQL
我利用这个套件串接Apache Spark这个高效能资料处理平台,
只要利用和dplyr完全一样的语法,
可以轻松在一分钟内处理亿笔资料的整理。
我认为这类的接口会越来越多,因为不算难扩充(我自己花一个周末就写了一个)
所以花时间投资dplyr ,未来的潜力是满高的。