※ 引述《Azuviir (Azuviir)》之铭言:
: 这个名词近几年很红
: 很多公司都想跟上这股潮流
: 小鲁最近也研究了一下
: 发现:干!这不就是统计分析吗?
: 根据网络上的一些定义来看,大数据不就是样本数接近母体的统计分析而已吗
: 为什么这个名词会突然窜红
: 是因为从电脑投入商业以来几十年样本累积够了才窜红的吗?
: 有没有大数据跟统计分析有什么差的八卦?
小鲁非Data Mining科班出身的,仅在硕班时用到相关的技术
稍微就印象题一下 Data Mining/Machine Learning 是在CS里面已经发展很久的技术
确实里面有很多的东西都跟统计有关。 那么统计跟Data Mining有什么不同呢?
在于以前资料量不很庞大的时候,大概用Data Mining推导出来的公式算法
然后直接实作就好了 而Big Data就不是这样,资料量很庞大的情况下会衍伸出很多的问题
1. Data Mining的算法不够快,资料量大时算出来的答案已经过时了
-> Data Mining/ Machine Learning
2. 数据库不够弹性,Query光把资料读出来就很久
-> 数据库设计
3. 电脑本身不够快,要把东西丢到其他人的机器去算,可是你又不想白白把
Raw Data送给别人看 -> 密码学
4. 资料量很多,每天都有硬盘或机器坏掉怎么办
-> OS/虚拟化
所以身为一个提供Total Solution的Big Data,统计固然相当重要,但也不是全部
给你做个参考