Re: [讨论] 会用Hadoop == 具备大数据处理能力?

楼主: pelicanper (派立肯)   2016-07-06 20:17:44
小弟在国外银行做BI,刚好最近导入Hadoop刚做完PoV
Big Data的部分先放在后面,先来谈谈为什么要用Hadoop
最主要的原因还是在银行有太多不同的系统和资料来源,甚至有的老到几十年都有
加上我们银行上面又有别的国家的母银行,十几年前就发展了一套 Global Data Warehouse
这种GDW顾名思义就是管你来源是什么最后都进到一个统一的数据库
然后下面再根据需求做ETL等等工作,为了资安和效率,GDW下面还有很多不同的数据库
然后presenatation level再根据不同的需求去用这些资料
这样行之有年也没什么问题,但是慢慢这几年就出现瓶颈
最简单的例子就是ETL中的storage table因为太庞大,许多像是历史交易资料如果
join其他table就常常跑到超过一个小时,还有其他许多需求就不再赘述
另外一个瓶颈就是即时性,GDW的架构让下游数据库只能用到前一天的资料
因为所以外部系统都要在营业日结束后才汇集资料,
所以最近我们就准备在未来几年慢慢把GDW这种架构淘汰,慢慢转换成Hadoop
搭配Informatica当作data quality 和 ETL 工具, presenation layer的最后通通
通过API取在Hadoop中被Informatica处理好的资料
Big Data直觉上就是资料庞大,不过复杂资料来源,时间性和输出的效率都是其特性
至于用什么Analytics tool去分析我反而觉得那已经是Big data很末端的事情
Hadoop也不是传统数据库的替代品,我们目前也只评估20%现行的程序可以被取代
然后慢慢地提升也许到50%,同时间改善现行Sql Server的效能和空间问题
这样各发挥各的优点,小弟最近做了一套程序,把银行十几年上百万Excel档案
根据不同的类别扫描变成JSON格式然后进Hadoop,好处就是不需要依赖任何数据库
新的资料只需要一直append在档案尾端,只要换一个schema就可以在Hive里面有新的view
Informatica做任何ETL也不会用到任何多余空间当staging table,结果直接写回hive
别的部门可以直接用像是SAS VA看到最新的资料
你说会Hadoop重不重要,我会说重要,我们通常称这种role是 big data engineer
尤其在银行这种注重架构,流程,正确性,效率的环境必须要仰赖这种人来确保
整个机器运转的顺畅,某种程度像是传统 DBA 和 System Administrator的综合
至少在我们银行些用ML只要我们BI生的出资料,他们其实不太管前面怎么搞
大概是这样,理性讨论勿战 :)
※ 引述《deo2000 (800IM)》之铭言:
: 最近看到一些公司在找人,把会用Hadoop认定是有大数据处理能力,
: 甚至会看研究所做的题目是不是Hadoop?
: 例如这篇
: https://goo.gl/0cTk60
: 还有这篇
: https://www.facebook.com/thank78/posts/630689647078714
: 但我对这种现象感到疑惑。
: 我认知的处理Big Data核心能力,是一些资料探勘、机器学习相关的算法,
: 以及相关应用(例如挖掘特定领域的资讯)。
: Hadoop是一个分散档案系统的软件工具,或许符合"Big Data"字面上的意义,
: 但我们都知道data无用,information才有用,
: 因此这个时代谈的"Big Data"大多含有"挖掘、自动智慧"等意义,
: 而不是单纯的资料管理。
: 更何况论文研究出来的知识,不应该绑定在特定工具。
: 或许研究者本人只熟悉Hadoop或某种套装软件,这难免的。
: 但研究贡献、他人欲重现研究过程等,都不应该绑死在特定软件工具上。
: 或许因为我非资讯本科系、也不熟数据库,
: 请问,是不是我对 Hadoop 或 Big Data 有什么误解?
: 为什么 Big Data 的核心能力会是某种工具,而不是方法?
作者: neo5277 (I am an agent of chaos)   2016-07-06 20:33:00
推,我最近也遇到这种问题,流程中人为变量太多,很难haccp,想改成像是你这类型架构。
作者: expiate (夜露死苦)   2016-07-06 21:08:00
你比上一篇的推文懂多了,别太谦虚
作者: Vitaceae (Vit)   2016-07-06 21:27:00
好帖我顶
作者: dreamnook (亚龙)   2016-07-06 21:49:00
经过n个人跟我口头BigData后 你是目前唯一ㄧ个使用范例解释的人= =
作者: dryman (dryman)   2016-07-06 22:13:00
建议使用avro而不是json,json解译很慢
作者: yotsuba1022 (Carl)   2016-07-06 22:29:00
谢谢分享~
作者: james732 (好人超)   2016-07-06 22:48:00
强者
作者: allan80625 (儿儿)   2016-07-06 22:52:00
好奇,分布式的储存还有其他的,为什么会挑hadoop?
作者: CRPKT (crpkt)   2016-07-06 22:53:00
台湾比较怕的是连 BI 都没有就要做 big data
作者: SuM0m0 (Part Time Player)   2016-07-06 23:29:00
因为选了Informatica的关系 ... 吗
作者: sonicnaru (披者狼皮的羊)   2016-07-07 01:06:00
pov是?
作者: alice78226 (紫)   2016-07-07 08:55:00
c大突破盲点
作者: coronach (...)   2016-07-07 09:51:00
作者: gmoz ( This can't do that. )   2016-07-07 13:22:00
好久没看到派大了 还有在打鼓吗因为开源/免钱/资源还是HADOOP大宗吧
作者: bocard (亚特阴影)   2016-07-08 16:36:00
应该是POC? Proof of Concept~

Links booklink

Contact Us: admin [ a t ] ucptt.com