※ 引述《rosenzulu (玫瑰祖鲁)》之铭言:
: 大数据
: 最近被媒体使用到烂掉的名词
: 常常看到新闻“大数据显示...”
: 身为统计系的我 也稍微爬文了解一下
: 大数据的魅力所在
: 但看到的不外乎是
: “未来产业大宗就是AI、物联网与大数据的结合”
: “运用大数据分析得到相关 进一步得知未来趋势作为政策”
: 但如果是要探讨相关性、做预测
: 使用统计方法不是也可以吗?
: 再查一些大数据最夯的课程
: 几乎都是R,Python这2个程式语言
: 然后使用该2语言实作资料探勘、机器学习
: 实在搞不懂大数据的新科技点在哪里
: 有没有产业界大数据大师可出来为小弟解惑?
完全不一样的两个东西
大数据有三个限定 不是任何的数据分析都可以叫做大
Volume容量、Velocity速度、Variety多样性 总共三个V
不符合以上三者任何一项都不该叫大数据
大数据跟统计不同 统计不适处理变量太多的分析 表会画不完
统计是给人做实验和检定的 实验前要先定义各项因变量和对应变量 检定也要有
大数据没有这些东西 直接丢进去就给你结果
大数据的使用完完全全不需要统计基础 你只要会写程式就行了
甚至根本不需要写程式 只需要会用、会输入即可
例如分群 这些东西用统计的说法讲不通的
商管也有很多工具也一样是统计讲不通的 并不是只有大数据有这个问题 例如田口方法
田口当时会流行就是因为他有避开统计繁琐的优势
没有统计基础一样可以解决很多问题
商管、化学、生物实验比较适合统计 不适合大数据
因为实验和问卷没办法做那么多份
大数据根本不需要统计基础 就算你有统计基础也讲不通大数据里面的很多工具
例如distribution、confidence 这些基本统计的模型在很多大数据的工具里常常看不到
总之 就算你学完统计也不知道大数据在干嘛 完全是两码子事
随便举个例子 非监督式学习、监督式学习 里面一大堆都跟统计扯不上边
类神经呢? 也不符统计模型 机器学习更不说了 neuron根本不是统计的东西