这领域主要分为二大类:
(A)玩资料的人:具有想像力能找出资料间的关联性,挖掘出有用的智慧。
能使用Machine learning提供训练好的模型让企业做应用(推荐系统),
或者直接给出一个结论(啤酒尿布)。
有兴趣的话可以参加台湾资料科学年会,会看到有趣的范例和应用。
这块领域比较偏向学术,需熟悉统计学和算法,能知道每种算法该如何应用。
如果不是国立大学研究所毕业,或者没有在这领域闯出名堂的人,很难进入。
(B)提供资料的人:建立稳定、可储存大量资料的系统,使用ETL提供干净的资料给A
做Machine learning。
这部份又分为
(a)使用昂贵、封闭的大型服务器系统。ex:data warehouse
(b)使用Open Soucre、用一般电脑做分布式运算的系统。ex:Hadoop、Spark
大数据会热门,是因为互联网、手机、电脑的普及加上互联网的推动,
让人察觉庞大数据背后的价值。加上Hadoop、Spark、R的出现,让人觉得
玩Machine learning不再只是有钱人的权利。
学了几个月Hadoop、Spark的心得是:这东西其实是个坑,学这东西需要很好的
英文、Linux、Java、网络架构、数据库知识。绝对不是无脑一直按下一步就可以
建立好的系统。而且它们还未达商品化的标准,系统不稳定又难维护。
系统出问题爬Linux、追SoucreCode是必经的过程。
想学好它们consultant是避免不了,上课也跑不掉,弄一弄又是几十万的开销。
那公司为什么要花一大笔钱让你去上课去研究Hadoop、Spark?
Hadoop、Spark不是唯一解,把基本功练好(英文、Linux、程式语言)才是唯一方法。
传统公司的思维是:我花了多少钱,可以拿到什么产品赚多少钱。
但是玩Machine learning的下场常常是:我花了一大笔钱,分析出来的结果是0。
愿意玩Machine learning的公司大多是:已经发展的很成功,为了要维持竞争力
拨一笔研究经费来试试看的类型。
在台湾玩Machine learning的人已经非常多,学术机构、银行、电信都有。
玩资料就是踏入漫长的道路,没人敢说自己很成功如果成功早就是Google第2了。
结论:
1)想学1、2门课就一步登天,年薪百万是不可能的。想进入这领域靠得还是
学历、基本功、机缘。
2)会要求MS-SQL是希望面试的人能有一定的基本功,会自已做ETL,
而且在做资料分析之余还能帮忙分摊一些基本的工作。
3)投入这领域的人已经非常多,唸得出来的企业都有,只是大家都很低调。