Re: [请益] Big data(ML)与Robotics领域在台湾的发展

楼主: dryman (dryman)   2014-05-26 01:37:20
现在台湾许多人对big data的认知似乎把big data跟data science混在一起了
连张善政都说要用big data来当作教育方针参考...
如果你的资料真的是big data等级
那从原始data到真的能进行分析,有一段非常长的距离
如果你的资料不需要处理就能进行分析,那他的量绝对没有到big data那么大
我现在在一家线上广告公司 (不是google)工作
工作刚好就是hadoop platform engineer
这家公司每日进来的raw data有好几TB
我们这组的主要工作就是除去重复的资料
将相关的event放在一起(ad impression / ad click)
产生可以向客户收费的报表,封存等等
封存后的资料,才有data scientist去试着捞资料作研究
通常捞的只能是很小一块的资料,因为量真的太大了...
在传统的database engineering中,就是所谓的ETL (Extract Transform Load)
* * *
我想表达的是,big data engineer != data science
尽管我自己也有学一些ML相关的课,但在big data上面目前无暇用到
同理,想做data science不需要是 big data
要考虑的是,data science从研究到能推出产品的周期很长
要看公司愿不愿意投资长线研发这类型的产品
我觉得这才是在台湾觅职所需要考虑的主要因素
* * *
最后想吐槽一点小事情
包含美国,很多data scientist都想学hadoop
但这真的不必要
因为他们最后都是在select ... from table;
连sum/count都没有用
都是把资料用select拿出来后再自己用python去count
这样能处理的资料是能有多大= ="
作者: damody (天亮damody)   2014-05-26 02:00:00
请问是台湾的公司吗?看上一篇文 看来不是
作者: pttnews (PTT新闻)   2014-05-26 10:03:00
sum/count 是因为DB已经很累了,就别再操他了
楼主: dryman (dryman)   2014-05-26 11:07:00
我是指从Hadoop中拿资料。map reduce最擅长的就是sum/count
作者: gmoz ( This can't do that. )   2014-05-26 12:55:00
用hive,pig或impala拿出来又用自己程式算的意思@@?
作者: MOONY135 (谈无欲)   2014-05-26 15:39:00
台湾目前的感觉就是想跟风...
作者: saladim (杀拉顶)   2014-05-26 18:01:00
dry大隐版了 好可惜 我都在里面挖文章学习 xdd
楼主: dryman (dryman)   2014-05-26 21:15:00
@gmoz 我看到很多人这样做不过回头想想可能是prototype算法阶段也只能这样做吧
作者: ckaha (★闪亮数学推理★)   2014-05-26 22:52:00
还好拉, 还是有在做sum count group by case when而且大部分简单的贝式就能推出很多有用的资讯囉~
作者: DrTech (竹科管理处网军研发人员)   2014-05-27 20:59:00
台湾有自己的一套,不信去104搜寻hadoop吧

Links booklink

Contact Us: admin [ a t ] ucptt.com