[讨论] 会用Hadoop == 具备大数据处理能力?

楼主: deo2000 (800IM)   2016-07-06 13:34:29
最近看到一些公司在找人,把会用Hadoop认定是有大数据处理能力,
甚至会看研究所做的题目是不是Hadoop?
例如这篇
https://goo.gl/0cTk60
还有这篇
https://www.facebook.com/thank78/posts/630689647078714
但我对这种现象感到疑惑。
我认知的处理Big Data核心能力,是一些资料探勘、机器学习相关的算法,
以及相关应用(例如挖掘特定领域的资讯)。
Hadoop是一个分散档案系统的软件工具,或许符合"Big Data"字面上的意义,
但我们都知道data无用,information才有用,
因此这个时代谈的"Big Data"大多含有"挖掘、自动智慧"等意义,
而不是单纯的资料管理。
更何况论文研究出来的知识,不应该绑定在特定工具。
或许研究者本人只熟悉Hadoop或某种套装软件,这难免的。
但研究贡献、他人欲重现研究过程等,都不应该绑死在特定软件工具上。
或许因为我非资讯本科系、也不熟数据库,
请问,是不是我对 Hadoop 或 Big Data 有什么误解?
为什么 Big Data 的核心能力会是某种工具,而不是方法?
作者: dreamnook (亚龙)   2016-07-06 13:36:00
很多东西只是个口号或是个旧有技术的新标签
作者: LaPass (LaPass)   2016-07-06 13:41:00
这就是学术跟实务的落差学术是告诉你理论,并认为你能靠理论去作实务。公司是,有某个目标在,你要能用那些工具去达成目标。
作者: king4647 (发呆)   2016-07-06 13:43:00
还有听说Spark = 大数据的...
作者: LaPass (LaPass)   2016-07-06 13:44:00
拿mysql当云端以及大数据的都有....
作者: femlro (母猪教谋神异端审问官1.5)   2016-07-06 13:49:00
因为你所说的工具正是因为针对某些特定用途而生成
作者: wt5566 (commend & comment)   2016-07-06 13:53:00
Hadoop不是过气了现在很像都Spark
作者: exthrash (Wherever I may roam)   2016-07-06 13:59:00
你说的是modeling 建模型不一定要大数据很多应用的数据量其实不大 像生物统计一类
作者: Yshuan (倚絃)   2016-07-06 14:04:00
可能是产品作大数据 但现在只缺玛农
作者: exthrash (Wherever I may roam)   2016-07-06 14:06:00
另一方面 有些职缺真的单纯就找人负责处理大数据的工具但是model是别人在建
作者: sean2449 (肉松)   2016-07-06 14:08:00
应该说这是infra的基本...machine learning再怎么强,跑个training要20天应该也很难做事
作者: exthrash (Wherever I may roam)   2016-07-06 14:12:00
应该说任何model用少量数据都可以train但不一定able to generalize
作者: dreamnook (亚龙)   2016-07-06 14:14:00
要回到之前的梗吗XD “没有数据的大数据”XD
作者: Masakiad (Masaki)   2016-07-06 14:15:00
因为你要拿学术上的知识自己从头刻会太久,hadoop通常指一整个生态系,包含储存、分散运算的框架,不用从头;另外像spark底下也有些ml算法可以直接拿来用,所以实务上会希望要具备能力使用这些适合处理big data的工具,专心。但学术上的概念很重要,这样才兜的出效果好的模型。
作者: exthrash (Wherever I may roam)   2016-07-06 14:15:00
我想说的是通常ML相关工作 = model+处理数据的tool小公司找的人可能身兼两职 大公司找就比较专精其中一项
作者: puffs (泡芙好吃)   2016-07-06 14:41:00
因为他是 HR , 不是 RD 主管....
作者: ChrisMullin (上帝的左手)   2016-07-06 14:47:00
该人资主管有些文章论点令人发噱
作者: manaup   2016-07-06 14:53:00
那篇文... 只是在暗褒自己好厉害而已 别太当回事
作者: fgkor123 (n(N))   2016-07-06 14:53:00
上课用py+spark基本的几个model用过 不精找工作没路用
作者: manaup   2016-07-06 14:55:00
这时代 FB只是用来隐恶扬善的公关工具因为也没有更值得一提的有价值事物了 只能拿小事做文章
作者: fgkor123 (n(N))   2016-07-06 14:57:00
而且蛮好笑的,课名有提到APP的。反而都教很浅
作者: popxpopxpop (爆爆爆)   2016-07-06 15:38:00
某单位的课程完全符合上面几位说的
作者: andreli (小狗跟正妹是我的死穴)   2016-07-06 18:10:00
一个是 data engineering, 一个是 data science 吧
作者: sing10407 (阿U)   2016-07-06 20:35:00
要先解释资料探勘和大数据的差别
作者: oread168 (大地的精靈R)   2016-07-06 21:39:00
真累
作者: coronach (...)   2016-07-07 09:45:00
首先你举的例子是同一个人,那个人第一不是技术主管,第二待的又是板上不推的公司...HR主管或Head hunter知道大数据跟Hadoop已经是极限了,你不可能要求他们知道整个生态系的各种工具用途,也很难让他们理解资料工程师跟资料科学家的差别推完发现上面都讲了,补一句,不是美国外商的技术就不会有问题XD
作者: vaga (消遣用)   2016-07-09 01:21:00
简单说公司想做这个但是不想花成本训练(但是如果评估这人学习力快可能愿意招募),所以告诉你我们用Hadoop 做bigdada,

Links booklink

Contact Us: admin [ a t ] ucptt.com