Re: [请益] Big data(ML)与Robotics领域在台湾的发展 dryman PTT批踢踢实业坊

Re: [请益] Big data(ML)与Robotics领域在台湾的发展

楼主: dryman (dryman) 2014-05-26 01:37:20

现在台湾许多人对big data的认知似乎把big data跟data science混在一起了
连张善政都说要用big data来当作教育方针参考...
如果你的资料真的是big data等级
那从原始data到真的能进行分析，有一段非常长的距离
如果你的资料不需要处理就能进行分析，那他的量绝对没有到big data那么大
我现在在一家线上广告公司 (不是google）工作
工作刚好就是hadoop platform engineer
这家公司每日进来的raw data有好几TB
我们这组的主要工作就是除去重复的资料
将相关的event放在一起(ad impression / ad click)
产生可以向客户收费的报表，封存等等
封存后的资料，才有data scientist去试着捞资料作研究
通常捞的只能是很小一块的资料，因为量真的太大了...
在传统的database engineering中，就是所谓的ETL (Extract Transform Load)
* * *
我想表达的是，big data engineer != data science
尽管我自己也有学一些ML相关的课，但在big data上面目前无暇用到
同理，想做data science不需要是 big data
要考虑的是，data science从研究到能推出产品的周期很长
要看公司愿不愿意投资长线研发这类型的产品
我觉得这才是在台湾觅职所需要考虑的主要因素
* * *
最后想吐槽一点小事情
包含美国，很多data scientist都想学hadoop
但这真的不必要
因为他们最后都是在select ... from table;
连sum/count都没有用
都是把资料用select拿出来后再自己用python去count
这样能处理的资料是能有多大= ="

作者: damody (天亮damody) 2014-05-26 02:00:00

请问是台湾的公司吗？看上一篇文看来不是

作者: pttnews (PTT新闻) 2014-05-26 10:03:00

sum/count 是因为DB已经很累了，就别再操他了

楼主: dryman (dryman) 2014-05-26 11:07:00

我是指从Hadoop中拿资料。map reduce最擅长的就是sum/count

作者: gmoz ( This can't do that. ) 2014-05-26 12:55:00

用hive,pig或impala拿出来又用自己程式算的意思@@?

作者: MOONY135 (谈无欲) 2014-05-26 15:39:00

台湾目前的感觉就是想跟风...

作者: saladim (杀拉顶) 2014-05-26 18:01:00

dry大隐版了好可惜我都在里面挖文章学习 xdd

楼主: dryman (dryman) 2014-05-26 21:15:00

@gmoz 我看到很多人这样做不过回头想想可能是prototype算法阶段也只能这样做吧

作者: ckaha (★闪亮数学推理★) 2014-05-26 22:52:00

还好拉, 还是有在做sum count group by case when而且大部分简单的贝式就能推出很多有用的资讯囉~

作者: DrTech (竹科管理处网军研发人员) 2014-05-27 20:59:00

台湾有自己的一套，不信去104搜寻hadoop吧

继续阅读

Re: [闲聊] 何谓纯软RD？dryman [请益] Big data(ML)与Robotics领域在台湾的发展ztdxqa Re: [请益] 写code还有分学士或硕士？nvizero Re: [请益] 写code还有分学士或硕士？damody Re: [闲聊] 何谓纯软RD？yauhh Re: [闲聊] 何谓纯软RD？lovdkkkk Re: [闲聊] 何谓纯软RD？bleed1979 Re: [请益] 写code还有分学士或硕士？su27 Re: [闲聊] 何谓纯软RD？mirageX Re: [闲聊] 何谓纯软RD？damody