Re: [问卦] Big data跟统计有什么差?

楼主: JayReed (平心静气在网络上学习)   2015-09-06 11:24:57
感觉都太从资讯面来讲
data mining -> 控制预测分析结构化资料
big data -> 控制预测分析非结构化资料
至于统计
是数学的一个分支
统计的方法, 大部分都必须先整理成资讯, 尤其是整理成数字
而 data mining 或 big data
有时候可以拿一些统计方法来应用
有时候根本不可能,
尤其是big data, 可能甚至只是很多录音档而已
所以就需要找其他适合的算法, 但很常跟统计无关
层次来说
数学 -> 理论基础, 是理论层,
如同在研究刀子怎么做成的
统计 -> 抽出理论中的方法, 还在方法论, 但是可以不用知道理论,
有各式各样的刀子, 好像在研究哪把刀子好
big data 或 data mining -> 再从统计100个方法中挑自己有用的方法,
其实统计方法很广
IT 有用到的比率也很低,
拿去实用, 是实用层,
就是真的拿刀子去切菜了
同样道理, 统计也可以应用所有其他各种不同领域,
譬如 small data, 医学, 工业, 商业, 艺术
※ 引述《neo5277 (I am an agent of chaos)》之铭言:
: 主要还是在资料分类上
: 跟怎么存
: 一般来说 储存方式有分为 较为规格化的你要去定义资料如何存放的
: SQL储存方式,你要找出资料"特色"好比他是字串,整数,倍精准
: 其实就是正规划,但是就如同前文所提。 query 的时候光跑就会很花时间
: 如果没有索引,但是太多又会耗空间。
: 那么还有一种就是nosql 这并非只是一个特有方式,比较像是组合所有其他的SLN。
: 几乎都是把档案转成纯文字丢进数据库,像是谷歌的Bigtable~FB的卡珊卓拉(秘术师
: 师傅?) 有时候你连FB重整网页的时候啊会突然看到一大串乱码,有一些就是他把档案
: 格式转成xml这些东西。 实际上实作还是要看一下相关文件,但是应该也是利用
: hashtable 下去指定一个key 跟value 给他。
: 好处就是 搜寻的算法你可以自己定义所以有无限可能。
: 再来就是,有数据很简单。 找出模式,跟如何去设想一个问题比较难。
: 好比你如何命题跟证明因果(利用ML或是统计相关数据)
: 达到实际上的应用,要说基本的简单应用其实不会很难。
: 左岸跟欧美很多人用简单爬虫跟MSSQL就玩出很多有意思的东西。
: 知乎,36g上有好多应用。 这个会很普及,比的是 Domain KNOW HOW 的内函了
: 跨领域会比较吃香,其他就只是技法而已。 当然你也可以深耕在更有效率的算法
: 或是其他储存方式。但是可能要一值钻木板,台湾目前大数据真的有在做的
: 听过只有几间公司,最有市场跟有名的应该是亚洲资采吧。
: 再来比较大间的是精诚底下的,其他应该还有。
: 他有没有商机? 有
: 成为专业人才难不难 ?
: 看面向
: 需要点的技能
: 统计
: 程式 最好是能包前后端整合的
: 数据库,资结。
: 最高应该就是算法 再来就是很吃"天分"啊
: 国外有13岁就在玩自己的系统,资料学家还可以发文章。
: 我自己是觉得,基本底子打好。技巧型的东西会越来越纯熟
: 可是观念错了就是错了。
: 大概就这样吧
作者: belleaya (台中李奥纳多皮卡堺雅人)   2015-09-06 11:33:00
谢谢~

Links booklink

Contact Us: admin [ a t ] ucptt.com