Re: [讨论] 会用Hadoop == 具备大数据处理能力? pelicanper PTT批踢踢实业坊

Re: [讨论] 会用Hadoop == 具备大数据处理能力?

楼主: pelicanper (派立肯) 2016-07-06 20:17:44

小弟在国外银行做BI,刚好最近导入Hadoop刚做完PoV
Big Data的部分先放在后面,先来谈谈为什么要用Hadoop
最主要的原因还是在银行有太多不同的系统和资料来源,甚至有的老到几十年都有
加上我们银行上面又有别的国家的母银行,十几年前就发展了一套 Global Data Warehouse
这种GDW顾名思义就是管你来源是什么最后都进到一个统一的数据库
然后下面再根据需求做ETL等等工作,为了资安和效率,GDW下面还有很多不同的数据库
然后presenatation level再根据不同的需求去用这些资料
这样行之有年也没什么问题,但是慢慢这几年就出现瓶颈
最简单的例子就是ETL中的storage table因为太庞大,许多像是历史交易资料如果
join其他table就常常跑到超过一个小时,还有其他许多需求就不再赘述
另外一个瓶颈就是即时性,GDW的架构让下游数据库只能用到前一天的资料
因为所以外部系统都要在营业日结束后才汇集资料,
所以最近我们就准备在未来几年慢慢把GDW这种架构淘汰,慢慢转换成Hadoop
搭配Informatica当作data quality 和 ETL 工具, presenation layer的最后通通
通过API取在Hadoop中被Informatica处理好的资料
Big Data直觉上就是资料庞大,不过复杂资料来源,时间性和输出的效率都是其特性
至于用什么Analytics tool去分析我反而觉得那已经是Big data很末端的事情
Hadoop也不是传统数据库的替代品,我们目前也只评估20%现行的程序可以被取代
然后慢慢地提升也许到50%,同时间改善现行Sql Server的效能和空间问题
这样各发挥各的优点,小弟最近做了一套程序,把银行十几年上百万Excel档案
根据不同的类别扫描变成JSON格式然后进Hadoop,好处就是不需要依赖任何数据库
新的资料只需要一直append在档案尾端,只要换一个schema就可以在Hive里面有新的view
Informatica做任何ETL也不会用到任何多余空间当staging table,结果直接写回hive
别的部门可以直接用像是SAS VA看到最新的资料
你说会Hadoop重不重要,我会说重要,我们通常称这种role是 big data engineer
尤其在银行这种注重架构,流程,正确性,效率的环境必须要仰赖这种人来确保
整个机器运转的顺畅,某种程度像是传统 DBA 和 System Administrator的综合
至少在我们银行些用ML只要我们BI生的出资料,他们其实不太管前面怎么搞
大概是这样,理性讨论勿战 :)
※ 引述《deo2000 (800IM)》之铭言：
: 最近看到一些公司在找人，把会用Hadoop认定是有大数据处理能力，
: 甚至会看研究所做的题目是不是Hadoop？
: 例如这篇
: https://goo.gl/0cTk60
: 还有这篇
: https://www.facebook.com/thank78/posts/630689647078714
: 但我对这种现象感到疑惑。
: 我认知的处理Big Data核心能力，是一些资料探勘、机器学习相关的算法，
: 以及相关应用（例如挖掘特定领域的资讯）。
: Hadoop是一个分散档案系统的软件工具，或许符合"Big Data"字面上的意义，
: 但我们都知道data无用，information才有用，
: 因此这个时代谈的"Big Data"大多含有"挖掘、自动智慧"等意义，
: 而不是单纯的资料管理。
: 更何况论文研究出来的知识，不应该绑定在特定工具。
: 或许研究者本人只熟悉Hadoop或某种套装软件，这难免的。
: 但研究贡献、他人欲重现研究过程等，都不应该绑死在特定软件工具上。
: 或许因为我非资讯本科系、也不熟数据库，
: 请问，是不是我对 Hadoop 或 Big Data 有什么误解？
: 为什么 Big Data 的核心能力会是某种工具，而不是方法？

作者: neo5277 (I am an agent of chaos) 2016-07-06 20:33:00

推，我最近也遇到这种问题，流程中人为变量太多，很难haccp，想改成像是你这类型架构。

作者: expiate (夜露死苦) 2016-07-06 21:08:00

你比上一篇的推文懂多了，别太谦虚

作者: Vitaceae (Vit) 2016-07-06 21:27:00

好帖我顶

作者: dreamnook (亚龙) 2016-07-06 21:49:00

经过n个人跟我口头BigData后你是目前唯一ㄧ个使用范例解释的人= =

作者: dryman (dryman) 2016-07-06 22:13:00

建议使用avro而不是json，json解译很慢

作者: yotsuba1022 (Carl) 2016-07-06 22:29:00

谢谢分享~

作者: james732 (好人超) 2016-07-06 22:48:00

强者

作者: allan80625 (儿儿) 2016-07-06 22:52:00

好奇,分布式的储存还有其他的,为什么会挑hadoop?

作者: CRPKT (crpkt) 2016-07-06 22:53:00

台湾比较怕的是连 BI 都没有就要做 big data

作者: SuM0m0 (Part Time Player) 2016-07-06 23:29:00

因为选了Informatica的关系 ... 吗

作者: sonicnaru (披者狼皮的羊) 2016-07-07 01:06:00

pov是?

作者: alice78226 (紫) 2016-07-07 08:55:00

c大突破盲点

作者: coronach (...) 2016-07-07 09:51:00

推

作者: gmoz ( This can't do that. ) 2016-07-07 13:22:00

好久没看到派大了还有在打鼓吗因为开源/免钱/资源还是HADOOP大宗吧

作者: bocard (亚特阴影) 2016-07-08 16:36:00

应该是POC? Proof of Concept~

继续阅读

Re: [请益] 请问我还欠缺了什么? G4321 Re: [请益] 请问我还欠缺了什么? wax207 [征才] iStaging诚征R&D工程师shayuron Re: [请益] 研究所VS作品walao81 Re: [请益] 请问我还欠缺了什么? Dovelpc Re: [请益] 请问我还欠缺了什么? skyyen999 [征才] 数据科技征才前端工程师roninn [讨论] 会用Hadoop == 具备大数据处理能力?deo2000 Re: [请益] 请问我还欠缺了什么? clairewind [请益] 硕0研究生一些疑问phil576