※ 引述《dryman (dryman)》之铭言:
: 自我在美国开始开发 hadoop 相关程式已经一年多
: 最近开始想把一些所学整理并回馈给台湾的版众
: 鉴于我当data engineer的时间并没有很长,如果有缺漏的还请高手指点
: 先简介一下我现在待的公司 OpenX
: 我们是一家线上广告公司,每天平均流量有TB等级
: production data cluster 有三百台机器
: storage data cluster 也有两百五十台机器
: 目前我负责开发并维护production data cluster,以及担任release engineer
: 不过我还很资浅,也只有接触到整个hadoop生态系当中的一小部分而已就是了
: 一般提到 Hadoop 时,都是指整套环绕着HDFS, Hadoop map reduce API相关的生态系
: 诸如高阶语言pig, hive, NoSQL 如 hbase, log batch processing 的 flume 等
: 现在有些人还会将storm, kafka, spark等近亲也包含进去
: 一开始接触时,免不了会觉得眼花缭乱
: 在实务上,基本上上面一个技术就需要一个人来维护
: 如果你的team没有很大,那请慎选自己的stack
: 这些技术擅长的面向都不同
[...]
感谢 dryman 的解说,让我们还没有学习 hadoop 技术生态的人
能建立一些背景知识。
刚好上个月有参加一个小型的 hadoop 部署比赛,有写了二篇参赛分享:
门外汉的 Hadoop 部署大赛(上)
http://goo.gl/KYygWp
门外汉的 Hadoop 部署大赛(下)
http://goo.gl/Mby70r
会参加的原因主要是被推坑(因为一个人太宅又太闲,时间太多)
本来是想 hadoop 这么复杂,官文的文件实在是看不太懂,
还真怕去拖累别人。不过,这是个 deploy & tuning 为主的赛程
加上看看参赛说明与计分方式
http://ehc.etusolution.com/index.php/tw/#AGENDA
可以看出,其实这比较不像比赛,而是透过比赛指引来降低学习门槛
有明确说,要怎么做才是建议的,依著“目标”练习过的程
还有队友的讨论,不知不觉渐渐对于 hadoop 有哪些 component 有概念
什么 process 是什么功能,也会慢慢有 sense。
有兴趣的朋友,也许可以试着这样的方式开始认识 hadoop
至于多数的书上,大多是由 hadoop common api 教起的,
完全没有自己架过,会有点脚踩不到地的感觉(不踏实)
试着动手做做,先“体验”一下外貌,再来写程式也许会比较有感觉。
写程式的门槛又是另一件事,那就是 hadoop 子专案真多,
如同前辈介绍的,看得眼都花了,但核心仍得学一下 map reduce 怎么写
官文多以 maven 为主的,我推荐另一个起手式,以 gradle 为主
https://www.facebook.com/groups/hadoop.tw/permalink/532218333554213/
https://github.com/popcornylu/hadoop-wordcount
这些简单的入门练习都能成功跑起来后,
就能试着进入不同的环境,像是在自己架的 cluster 上跑
或是使用 aws emr 或 azure hdinsight 环境。
毕竟台湾多数还是小公司,要自己养 cluster 有点难度。
目前以我有限的知识只能先分享到这里,
后续有再进一步学习,再继续分享^^