现在台湾许多人对big data的认知似乎把big data跟data science混在一起了
连张善政都说要用big data来当作教育方针参考...
如果你的资料真的是big data等级
那从原始data到真的能进行分析,有一段非常长的距离
如果你的资料不需要处理就能进行分析,那他的量绝对没有到big data那么大
我现在在一家线上广告公司 (不是google)工作
工作刚好就是hadoop platform engineer
这家公司每日进来的raw data有好几TB
我们这组的主要工作就是除去重复的资料
将相关的event放在一起(ad impression / ad click)
产生可以向客户收费的报表,封存等等
封存后的资料,才有data scientist去试着捞资料作研究
通常捞的只能是很小一块的资料,因为量真的太大了...
在传统的database engineering中,就是所谓的ETL (Extract Transform Load)
* * *
我想表达的是,big data engineer != data science
尽管我自己也有学一些ML相关的课,但在big data上面目前无暇用到
同理,想做data science不需要是 big data
要考虑的是,data science从研究到能推出产品的周期很长
要看公司愿不愿意投资长线研发这类型的产品
我觉得这才是在台湾觅职所需要考虑的主要因素
* * *
最后想吐槽一点小事情
包含美国,很多data scientist都想学hadoop
但这真的不必要
因为他们最后都是在select ... from table;
连sum/count都没有用
都是把资料用select拿出来后再自己用python去count
这样能处理的资料是能有多大= ="