楼主:
dryman (dryman)
2014-05-26 01:37:20现在台湾许多人对big data的认知似乎把big data跟data science混在一起了
连张善政都说要用big data来当作教育方针参考...
如果你的资料真的是big data等级
那从原始data到真的能进行分析,有一段非常长的距离
如果你的资料不需要处理就能进行分析,那他的量绝对没有到big data那么大
我现在在一家线上广告公司 (不是google)工作
工作刚好就是hadoop platform engineer
这家公司每日进来的raw data有好几TB
我们这组的主要工作就是除去重复的资料
将相关的event放在一起(ad impression / ad click)
产生可以向客户收费的报表,封存等等
封存后的资料,才有data scientist去试着捞资料作研究
通常捞的只能是很小一块的资料,因为量真的太大了...
在传统的database engineering中,就是所谓的ETL (Extract Transform Load)
* * *
我想表达的是,big data engineer != data science
尽管我自己也有学一些ML相关的课,但在big data上面目前无暇用到
同理,想做data science不需要是 big data
要考虑的是,data science从研究到能推出产品的周期很长
要看公司愿不愿意投资长线研发这类型的产品
我觉得这才是在台湾觅职所需要考虑的主要因素
* * *
最后想吐槽一点小事情
包含美国,很多data scientist都想学hadoop
但这真的不必要
因为他们最后都是在select ... from table;
连sum/count都没有用
都是把资料用select拿出来后再自己用python去count
这样能处理的资料是能有多大= ="
作者:
damody (天亮damody)
2014-05-26 02:00:00请问是台湾的公司吗?看上一篇文 看来不是
作者:
pttnews (PTT新闻)
2014-05-26 10:03:00sum/count 是因为DB已经很累了,就别再操他了
楼主:
dryman (dryman)
2014-05-26 11:07:00我是指从Hadoop中拿资料。map reduce最擅长的就是sum/count
作者:
gmoz ( This can't do that. )
2014-05-26 12:55:00用hive,pig或impala拿出来又用自己程式算的意思@@?
作者:
saladim (杀拉顶)
2014-05-26 18:01:00dry大隐版了 好可惜 我都在里面挖文章学习 xdd
楼主:
dryman (dryman)
2014-05-26 21:15:00@gmoz 我看到很多人这样做不过回头想想可能是prototype算法阶段也只能这样做吧
作者:
ckaha (★闪亮数学推理★)
2014-05-26 22:52:00还好拉, 还是有在做sum count group by case when而且大部分简单的贝式就能推出很多有用的资讯囉~
作者:
DrTech (竹科管理处网军研发人员)
2014-05-27 20:59:00台湾有自己的一套,不信去104搜寻hadoop吧