[关键字]: R, big data
[出处]: http://blog.eoda.de/2013/11/27/five-ways-to-handle-big-data-in-r/
[重点摘要]:
1. 怎样的资料算大?
Hadley Wickham: 当处理资料的时间超过开发程式的时间
Jan Wijffels:
- < 10^6, R 可以容易的处理
- 10^6 ~ 10^9: 花点心思可以用R 处理
- > 10^9: Map Reduce, R + Hadoop
2. 如何处理大资料:
- 抽样
- 扩充硬件 (64-bit R 最多可以吃 8TB的RAM)
- 在硬盘上处理 (请参考套件ff和ffbase)
- 和C++ 或java整合 (请参考套件Rcpp或rJava)
- 更强大的interpreter (请参考pqR, Renjin, TERR和Oracle R)