Re: [讨论] 会用Hadoop == 具备大数据处理能力? dryman PTT批踢踢实业坊

Re: [讨论] 会用Hadoop == 具备大数据处理能力?

楼主: dryman (dryman) 2016-07-06 23:04:31

我前两份工作也是用Hadoop。我负责的是data stack tech lead
公司日资料量300TB
“大数据”这名词真的很模糊
不过这不是台湾的问题，因为美国这边很多人也都是这么搞
我自己是这么观察啦...
把大数据当做资料科学技术来看的，大都没有大资料
把大数据当作“大型资料工程”问题来看的，由于问题复杂度太高
所以很难作为资料科学问题来处理
这什么意思？
大多数的资料科学算法动辄O(N^2)以上
数据量一大复杂度马上就飙到上万台机器都算不动的情况
而一般的“大数据”工程师
就是要解决因应数据量上升而需要重新设计算法的工程问题
hadoop就是为了解决这样的工程问题而生
* * *
传统数据库提供的是高阶的SQL抽象层
你只要处理集合间的连结即可
底层真正的算法，不论是透过hash table, sort, b-tree
很多人一般根本不需要接触到
但是当你数据量大到一定程度后
由数据库引擎自动帮你决定的算法就再也不适用了
Hadoop 的设计就是让你可以把资料问题转换成 sort (map reduce shuffle phase)
sort也是一般数据库要解决大型资料查询的最佳算法
（例如group by, join, or diff）
一些高富杂度的问题，经过使用hadoop来客制算法，就变得算得动了
我第一份工作就是将一个要算五个小时的PostgreSQL ETL
重写成map reduce，变得只有二十分钟
这个效率应该是用hive/pig都做不到的。因为要客制化算法
这只是在数据量变大后其中一个变困难的问题
资料蒐集、处理（上述的ETL就是问题之一）、储存、查询
每件事都变得困难许多
通常资料科学家会拿去作分析的，大都是缩小很多的资料集了
他们的第一步，通常就是怎么把资料变得更小，不然算不动XD
* * *
我最近试着把一些之前所学知识整理成部落格
不定期更新 :P
https://medium.com/@fchern
其中一篇是
“那些大数据书不会教的资料工程”
http://tinyurl.com/hvrt7s8
主要在讲如何进行资料清理
有空可以看看
* * *
最后...不要寄信给我（包含职涯建议之类）
有问题请在版上发问 :)

作者: now99 (陈在天) 2016-07-06 23:07:00

推

作者: longlyeagle (长鹰宝宝实验室) 2016-07-06 23:10:00

推不过Map Reduce限制真得很大很多算法为了可以利用Map Reduce来运算改得面目全非明明还是用一样的一样的名子 Performance跟里面真正的算法都不一样了

作者: psinqoo (é›¶åº¦ç©ºé–“) 2016-07-06 23:14:00

使用 Rhadoop SparkR ~~

楼主: dryman (dryman) 2016-07-06 23:23:00

包含spark，都无法解决当你的资料集比内存还大时该怎么办

作者: htc812 (大帅) 2016-07-06 23:29:00

spark 怎么会不能解决资料集大过内存的情况...

作者: longlyeagle (长鹰宝宝实验室) 2016-07-06 23:29:00

至少有好的scalability可以用加机器解决算不错了吧?

作者: SuM0m0 (Part Time Player) 2016-07-06 23:36:00

会spill to disk啊

作者: longlyeagle (长鹰宝宝实验室) 2016-07-06 23:36:00

其实现在同时submit多支还是会炸吧? 还是2.0有解决?

楼主: dryman (dryman) 2016-07-06 23:37:00

现在spark对于超大资料处理效能我不熟。我还在做data时它在处理超大资料的效能评估一直没有达到我们的标准

作者: SuM0m0 (Part Time Player) 2016-07-06 23:39:00

这类题目可能得跟storage一起讨论不然case by case落差大

作者: daniel54088 (daniel54088) 2016-07-06 23:57:00

推这版真的很多神人

作者: bowin (尽其在我) 2016-07-07 00:16:00

推

作者: laject (hanks) 2016-07-07 00:27:00

推

作者: king4647 (发呆) 2016-07-07 00:30:00

推 map reduce 不好写QQ

作者: sonicnaru (披者狼皮的羊) 2016-07-07 00:58:00

有神到..

作者: h310713 (虎虎虎) 2016-07-07 01:10:00

Data pre process 才是重点

作者: htc812 (大帅) 2016-07-07 01:41:00

推

作者: vn509942 (如履薄冰) 2016-07-07 07:51:00

感谢分享

作者: Argos (Big doge is watching u) 2016-07-07 09:51:00

推

作者: coronach (...) 2016-07-07 09:56:00

之前就看过分享文了，推

作者: Baudelaire (起坐不能平。) 2016-07-07 11:56:00

这篇写的好

作者: ken9527k (来韩老师这边) 2016-07-07 12:22:00

谢谢分享

作者: PolarGG (PolarGG) 2016-07-07 17:46:00

推

作者: Gladstone (Austin) 2016-07-10 01:37:00

推

继续阅读

Re: [讨论] 会用Hadoop == 具备大数据处理能力?longlyeagle Re: [请益] 研究所VS作品derekhsu Re: [讨论] 会用Hadoop == 具备大数据处理能力?pelicanper Re: [请益] 请问我还欠缺了什么? G4321 Re: [请益] 请问我还欠缺了什么? wax207 [征才] iStaging诚征R&D工程师shayuron Re: [请益] 研究所VS作品walao81 Re: [请益] 请问我还欠缺了什么? Dovelpc Re: [请益] 请问我还欠缺了什么? skyyen999 [征才] 数据科技征才前端工程师roninn