Re: [请益] 值得花十万到巨匠 学大数据软件吗?

楼主: v9290026 (CH)   2016-12-26 15:02:10
开门见山:如果是有志想成为资料科学家或工程师的话,不要花,不值得。
连版上可能推的资策会大数据专班.....都不要去(真的要我宁可选Java EE班)。
恒逸我没仔细研究,但应该没差多少。
我是一位对资料处理有兴趣的资料工程师,简单说就是数据领域的黑手,不是帅帅的科学
家XD。但如果想一起当黑手的,我来说说有哪些东西可以先去看看有没有兴趣,再往下走:
(一)资料源:
Apache Flume
Apache Kafka
LogStash
负责接资料的,目前又以streaming为大宗:
Flume比较适合整合Hadoop生态系; Kafka则是偏SMACK架构; logStash则是ELK自成一派。
当然这不是绝对,而且可以互相接来接去,像我前一个案子也有Kafka->Flume->HDFS/HBase/Avro串来串去的。
我用这3套目前可以满足大部分的streaming收资料的需求。
Flink没时间碰QQ
阿批次勒?...HDFS API XD~
选一套的话:我选Kafka。搭配语言:Java Client API
(二)资料处理引擎:
MRv2(MapReduce)
Spark
这也是大家,即使是非业界也常常听到的term,但要讲的仔细也是好几本书的内容了..
例如批次处理该用Spark好还是MapReduce。串流处理的话我听过Spark Streaming,那跟
Storm又差在哪?什么是micro-batch?
选一套的话,我选Spark,因为目前的应用还是单位时间点内内存能负载的量。还没玩
过几个PB的.....不然选择可能不同了。
但有点尴尬的是,Spark用Java,即便是 Lambda写起来也是有点憋屈..
所以我会推荐新手用Spark+Python+jupiter。
想让自己被Funcational Programming玩的,可以选Spark in Scala(大推)
现在在IT铁人赛有写一点Spark +Scala的教学,有兴趣的可以看看(招手):
http://ithelp.ithome.com.tw/users/20103839/ironman/1210
(三)结构化/半结构化查询工具(Query Engine):
Hive
Impala (也开源了)
Spark SQL
这几套我对Impala跟Spark SQL比较有研究而已。这边就是SQL语言配的上场的地方啦!!
可以用简单的SQL查询当然开心啦,但是要注意的是先查哪些语法没有支援....
不管哪一套都要注意"别帮他当作数据库来用",他们是查询工具不是数据库!
另外注意所谓的Partition的设计,以及选用的档案格式,例如Parquet/Avro等....
扯远了....
这几套与BI也都有良好的介接,Tableau/Qlik View不是问题
选一套的话,我选SparkSQL/Impala 搭配SQL语言以及各种JDBC/ODBC
(四)分布式储存系统:
HDFS
Kafka
S3
最正宗的Hadoop肯定会用到HDFS,但也可以把资料暂存在Kafka上,处理完后就送进NoSQL
,另外S3也是好物,只是没机会碰到。
选一套的话,还是从HDFS+Java API开始吧
(五)分布式数据库:
HBase
MongoDB
ElasticSearch
Cassandra
恩...没有MySQ, MariaDB, PostgreSQL, MS SQL更没有Oracle XDDD
这几套我都很爱,只是MongoDB我是接一个小系统上面有跑,没有实际开发应用经验。
数据库有时候就端看你要走哪种应用了:
Hadoop正宗就是搭配HBase,想用SQL上面可以套一个PhoenixDB,设计就是在玩Primary
Key。
ElasticSearch:全文检索断词那方面的应用,也就是ELK中的E,再搭配一个kibana整个好用。
Cassandra::与Spark整合良好,去正规化的Data modeling与P2P的架构整个是我的爱。
选一套的话,我私心选Cassadnra + Java/Scala Client~XD
(六)周边:
Zookeeper, Hue, Yarn, Mesos。
还有太多周边了商品了XDDD,Zookeeper可以要懂一些,HBase跟Kafka都有用
作者: yolasiku (我的绿卡能吃吗)   2016-12-26 15:06:00
BI我都用台语唸
作者: beaprayguy (小羊快跑啊)   2016-12-26 15:16:00
你有做过10pb 的 Lab吗?好奇?而且资料源有影像 图片 文字 档案 你探勘的方法我也觉得很有趣
楼主: v9290026 (CH)   2016-12-26 15:19:00
没有,我最大的sclae不过几百T(跪
作者: viper9709 (阿达)   2016-12-26 15:42:00
推~感谢分享
作者: blackacre (Black/White/Green acre)   2016-12-26 15:43:00
感谢分享
作者: dreamnook (亚龙)   2016-12-26 16:06:00
感谢分享OwO
作者: InfinitySA (~我肥宅我有妹妹~)   2016-12-26 16:25:00
资料源什么格式都有吧 Q.Q
作者: vn509942 (如履薄冰)   2016-12-26 17:26:00
很多好玩的东东:D
作者: popxpopxpop (爆爆爆)   2016-12-26 18:47:00
作者: Ekmund (是一只小叔)   2016-12-26 19:42:00
请受小弟一拜
作者: chen1025 (小陈)   2016-12-26 20:22:00
推这领域大部分的时间都是在资料整理居多 资料整理好后 再放进自己的模型去跑
作者: Kz (遨翔之云)   2016-12-26 20:28:00
谢谢分享(∩▽∩)
作者: cacadeon (deon)   2016-12-26 21:37:00
感谢,很广泛的整理与分享!
作者: remmurds (Stronghold)   2016-12-26 21:54:00
工具真的太多太杂了...看得眼花撩乱 @@
作者: kenshin528 (成立奥凶帝国!!)   2016-12-26 22:05:00
真大大
作者: frankshih (阿翰)   2016-12-26 23:27:00
感谢分享
作者: TpBp (尊)   2016-12-27 01:12:00
大数据要学的很多耶~
作者: tds7033   2016-12-27 07:59:00
推整理~

Links booklink

Contact Us: admin [ a t ] ucptt.com