我是觉得大家都讲得太复杂
还有讲到 Machine Learning , Data Mining , AI 的
统计说到底,就是由微观看巨观、由样本看母体
既然你现在数据很大,那推论这件事情就变的单纯的多
因为你样本多嘛,多到可以直接抓母体了,
不用很高深的机率推论、不用满足前提假设、不用在意实验设计
所以大数据重点就是你要怎么算的快、省资源
举个例子来说,
统计有太多太多实例要求你在 10 - 100 个样本之间
做最佳化、参数估计、分布估计嘛
但是做 Big Data 第一件发现的事情就是
干,资料塞不进内存
就算你塞进去了
干,Computing Power 不够
所以你就看到很多分布式运算、Cuda啊之类的
这边就比较像 ML 或 DM
AI 的事情,譬如说 Computer Vision 吧
不但要快、省,还要找到他妈的机掰的 Loss Function Minimum
那就更北烂了
跟 Big Data 不是同一件事情