Re: [讨论] 会用Hadoop == 具备大数据处理能力?

楼主: longlyeagle (长鹰宝宝实验室)   2016-07-06 22:49:03
你好
小弟我在外商软件公司也是负责跟资料相关的东西
架构spark cluster跟公司的ML library
平常除了写程式还有一个兴趣是问别人奇怪的问题
刚好也问过许多同事对大数据的看法
分析过之后发现可以把大家对大数据的观点分为两种
1. 大数据可以为我们带来什么?
2. 大数据会造成什么问题?
大数据可以为我们带来什么?
基本上就是在讲纪录了大量资料之后
可以利用Data Mining来达到的好处
像是可以发现现象的相关性
并且利用这些Data Mining Insight来
改进产品 改进流程 改进宣传目标 等等
大数据会造成什么问题?
资料大到10T硬盘装不下怎么办?
计算动不动就爆Memory怎么办?
算个简单的模型算到天荒地老怎么办?
Query资料电脑就死给你看怎么办?
Hadoop算是业界广泛使用的
针对第二点问题的解决方案
其他还有Mesos Storm等等
针对不同资料形式跟分析模型
大家采用的软件架构也不一样
同时
采用的软件架构通常会伴随相关的分析工具
像是Hive就是Hadoop生态链里面很常见的一员
或是利用Spark在Hadoop上跑ML
虽然Spark因为也可以跑在Mesos上
我觉得已经不单纯是属于Hadoop了
相关的工具其实也限缩了一些ML发挥的空间
当然
因应不同的资料采用不同的数学模型
或是特化现有的数学模型还是必要的
所以还是有很多ML可以玩的地方
回到Hadoop
你可以想像当一间公司已经用了Hadoop
而且当那间公司要找的是即战力的时候
可以快速的利用Hadoop及其生态链里面的工具
来达成目标的人
就是他们要找的人
如果是大公司
对即战力的需求没有那么高而且分工更细
不熟架构只做分析的人也有发挥的空间
※ 引述《deo2000 (800IM)》之铭言:
: 最近看到一些公司在找人,把会用Hadoop认定是有大数据处理能力,
: 甚至会看研究所做的题目是不是Hadoop?
: 例如这篇
: https://goo.gl/0cTk60
: 还有这篇
: https://www.facebook.com/thank78/posts/630689647078714
: 但我对这种现象感到疑惑。
: 我认知的处理Big Data核心能力,是一些资料探勘、机器学习相关的算法,
: 以及相关应用(例如挖掘特定领域的资讯)。
: Hadoop是一个分散档案系统的软件工具,或许符合"Big Data"字面上的意义,
: 但我们都知道data无用,information才有用,
: 因此这个时代谈的"Big Data"大多含有"挖掘、自动智慧"等意义,
: 而不是单纯的资料管理。
: 更何况论文研究出来的知识,不应该绑定在特定工具。
: 或许研究者本人只熟悉Hadoop或某种套装软件,这难免的。
: 但研究贡献、他人欲重现研究过程等,都不应该绑死在特定软件工具上。
: 或许因为我非资讯本科系、也不熟数据库,
: 请问,是不是我对 Hadoop 或 Big Data 有什么误解?
: 为什么 Big Data 的核心能力会是某种工具,而不是方法?
作者: MOONY135 (谈无欲)   2016-07-06 22:54:00
分析跟做架构要分工才对

Links booklink

Contact Us: admin [ a t ] ucptt.com