Re: [问卦] 大数据分析与统计分析的差别?

楼主: NCKUer (NCKUer)   2017-10-18 09:03:09
※ 引述《rosenzulu (玫瑰祖鲁)》之铭言:
: 大数据
: 最近被媒体使用到烂掉的名词
: 常常看到新闻“大数据显示...”
: 身为统计系的我 也稍微爬文了解一下
: 大数据的魅力所在
: 但看到的不外乎是
: “未来产业大宗就是AI、物联网与大数据的结合”
: “运用大数据分析得到相关 进一步得知未来趋势作为政策”
: 但如果是要探讨相关性、做预测
: 使用统计方法不是也可以吗?
: 再查一些大数据最夯的课程
: 几乎都是R,Python这2个程式语言
: 然后使用该2语言实作资料探勘、机器学习
: 实在搞不懂大数据的新科技点在哪里
: 有没有产业界大数据大师可出来为小弟解惑?
完全不一样的两个东西
大数据有三个限定 不是任何的数据分析都可以叫做大
Volume容量、Velocity速度、Variety多样性 总共三个V
不符合以上三者任何一项都不该叫大数据
大数据跟统计不同 统计不适处理变量太多的分析 表会画不完
统计是给人做实验和检定的 实验前要先定义各项因变量和对应变量 检定也要有
大数据没有这些东西 直接丢进去就给你结果
大数据的使用完完全全不需要统计基础 你只要会写程式就行了
甚至根本不需要写程式 只需要会用、会输入即可
例如分群 这些东西用统计的说法讲不通的
商管也有很多工具也一样是统计讲不通的 并不是只有大数据有这个问题 例如田口方法
田口当时会流行就是因为他有避开统计繁琐的优势
没有统计基础一样可以解决很多问题
商管、化学、生物实验比较适合统计 不适合大数据
因为实验和问卷没办法做那么多份
大数据根本不需要统计基础 就算你有统计基础也讲不通大数据里面的很多工具
例如distribution、confidence 这些基本统计的模型在很多大数据的工具里常常看不到
总之 就算你学完统计也不知道大数据在干嘛 完全是两码子事
随便举个例子 非监督式学习、监督式学习 里面一大堆都跟统计扯不上边
类神经呢? 也不符统计模型 机器学习更不说了 neuron根本不是统计的东西
作者: lturtsamuel (港都都教授)   2017-10-18 09:04:00
又是这种只会套套tool的机器学习zzz
作者: xzcb2008 (非常森77牛)   2017-10-18 09:06:00
ncku没资格说大数据
作者: NVCat (在下鲁宅)   2017-10-18 09:09:00
不知道在乱讲什么 快笑死
作者: lturtsamuel (港都都教授)   2017-10-18 09:10:00
深度学习就算了 机器学习跟统计扯不上边?你还是回去套tool吧就连kmeans cluster背后都有统计了
作者: enjoytbook (en)   2017-10-18 09:17:00
基因组定序表示...囧
作者: qwefghiop1 (只有肥宅知道的世界2)   2017-10-18 09:17:00
分群的好坏就须透过统计学判断Cluster的聚集性了
作者: tas001 (演奏梦想之夜)   2017-10-18 09:17:00
其实就in time与否的最大差异
作者: NVCat (在下鲁宅)   2017-10-18 09:17:00
"分析"跟机器学习混为一谈 文不对题ML跟统计无关 贻笑大方 有多少ML的方法都是基于统计发展的
作者: flac (老狮子)   2017-10-18 09:18:00
受教了,谢谢
作者: sam7207 (三亩)   2017-10-18 09:18:00
...你知道每个模组(套件)后面都是一连串的公式 跟 统计吗
作者: ptguitar (佩蒂吉他)   2017-10-18 09:18:00
只要有透过整理资料 整理分析然后解释就是统计范畴了
作者: qwefghiop1 (只有肥宅知道的世界2)   2017-10-18 09:19:00
以kmeans来说你的起始群心会决定你的最终分群结果
作者: ptguitar (佩蒂吉他)   2017-10-18 09:19:00
只是方式不一样 谁说统计一定要你说的这样才叫统计?
作者: tkigood (提谷德)   2017-10-18 09:19:00
ML跟统计无关 呜噗噗噗噗
作者: lturtsamuel (港都都教授)   2017-10-18 09:19:00
kmean有保证每次迭带不会比上次差 这里的证明要用资
作者: sam7207 (三亩)   2017-10-18 09:20:00
你以为 数据丢进去 绷绷绷 就出来结果...是大数据XD?
作者: lturtsamuel (港都都教授)   2017-10-18 09:20:00
kmean保证每次迭代不会比上次差 这里的证明要用资讯
作者: pierreqq (叶子上的风)   2017-10-18 09:20:00
把大数据跟类神经混在一起就成了AI了...
作者: whcat   2017-10-18 09:21:00
妳绝对要强调 妳是自学 不然人家会误以为ncku教授素质低落
作者: qwefghiop1 (只有肥宅知道的世界2)   2017-10-18 09:21:00
每个叠代的新群心也是统计该群资料点找出的
作者: sam7207 (三亩)   2017-10-18 09:21:00
最小化组间差距....嗯..你查查组间差距 这概念是怎么来的好了..
作者: pierreqq (叶子上的风)   2017-10-18 09:21:00
这是最近AI人的新论点...不知带不带的起来
作者: sam7207 (三亩)   2017-10-18 09:22:00
ncku .... uccu
作者: rey123123 (小肥羊)   2017-10-18 09:22:00
唉.. 半瓶水响叮当。哪个ML的TOOL背后不是统计背书的
作者: qwefghiop1 (只有肥宅知道的世界2)   2017-10-18 09:23:00
谁跟你说分群就是统计,有用到统计的方法就等于是?
作者: soem (流水)   2017-10-18 09:23:00
长见识了,原来NCKU是这样教学的……
作者: DIDIMIN ( )   2017-10-18 09:23:00
简单的类神经说穿了只是非线性转换的回归分析
作者: redsa12 (哈吉米)   2017-10-18 09:27:00
噗噗 监督式学习跟统计无关?
作者: NVCat (在下鲁宅)   2017-10-18 09:32:00
你就老实讲 你是来黑NCKU的吧
作者: mingchei (mingchei)   2017-10-18 09:34:00
现在哪个资料没有三个大V?
作者: Joker3 (丑角3)   2017-10-18 09:37:00
靠杯 推玟一堆半瓶水在那边吵 我真的笑出来
作者: bestchiao (呼拉拉)   2017-10-18 09:47:00
以为上网看看开放式课程就够喔 哈哈
作者: Kazimir (Kazimir)   2017-10-18 09:50:00
一件事情可以用数学的观点来理解 不代表这件事情叫数学
作者: patentstm (暖暖苗圃没有树...)   2017-10-18 09:50:00
原po跟推文看似没历练过统计与BD>......

Links booklink

Contact Us: admin [ a t ] ucptt.com