Re: [请益] 值得花十万到巨匠 学大数据软件吗?

楼主: weinine32 (随意)   2016-12-26 12:26:24
这领域主要分为二大类:
(A)玩资料的人:具有想像力能找出资料间的关联性,挖掘出有用的智慧。
能使用Machine learning提供训练好的模型让企业做应用(推荐系统),
或者直接给出一个结论(啤酒尿布)。
有兴趣的话可以参加台湾资料科学年会,会看到有趣的范例和应用。
这块领域比较偏向学术,需熟悉统计学和算法,能知道每种算法该如何应用。
如果不是国立大学研究所毕业,或者没有在这领域闯出名堂的人,很难进入。
(B)提供资料的人:建立稳定、可储存大量资料的系统,使用ETL提供干净的资料给A
做Machine learning。
这部份又分为
(a)使用昂贵、封闭的大型服务器系统。ex:data warehouse
(b)使用Open Soucre、用一般电脑做分布式运算的系统。ex:Hadoop、Spark
大数据会热门,是因为互联网、手机、电脑的普及加上互联网的推动,
让人察觉庞大数据背后的价值。加上Hadoop、Spark、R的出现,让人觉得
玩Machine learning不再只是有钱人的权利。
学了几个月Hadoop、Spark的心得是:这东西其实是个坑,学这东西需要很好的
英文、Linux、Java、网络架构、数据库知识。绝对不是无脑一直按下一步就可以
建立好的系统。而且它们还未达商品化的标准,系统不稳定又难维护。
系统出问题爬Linux、追SoucreCode是必经的过程。
想学好它们consultant是避免不了,上课也跑不掉,弄一弄又是几十万的开销。
那公司为什么要花一大笔钱让你去上课去研究Hadoop、Spark?
Hadoop、Spark不是唯一解,把基本功练好(英文、Linux、程式语言)才是唯一方法。
传统公司的思维是:我花了多少钱,可以拿到什么产品赚多少钱。
但是玩Machine learning的下场常常是:我花了一大笔钱,分析出来的结果是0。
愿意玩Machine learning的公司大多是:已经发展的很成功,为了要维持竞争力
拨一笔研究经费来试试看的类型。
在台湾玩Machine learning的人已经非常多,学术机构、银行、电信都有。
玩资料就是踏入漫长的道路,没人敢说自己很成功如果成功早就是Google第2了。
结论:
1)想学1、2门课就一步登天,年薪百万是不可能的。想进入这领域靠得还是
学历、基本功、机缘。
2)会要求MS-SQL是希望面试的人能有一定的基本功,会自已做ETL,
而且在做资料分析之余还能帮忙分摊一些基本的工作。
3)投入这领域的人已经非常多,唸得出来的企业都有,只是大家都很低调。
作者: beaprayguy (小羊快跑啊)   2016-12-26 12:31:00
绝大部分走这行死最多人是整理资料光是要怎么说服决策主管和各业办承认这份结构而资料分析师对资料的界线和颗粒影响到底层工作没有信仰和信心去当资料工程师根本非常无聊
作者: remmurds (Stronghold)   2016-12-26 12:51:00
作者: InfinitySA (~我肥宅我有妹妹~)   2016-12-26 13:15:00
一楼说的是 现在我也刚入行数据库应用系统相关的工作前辈也是说到 最麻烦的事情就是整理 转换资料...
作者: loveu8 (RA1-推广)   2016-12-26 13:16:00
推!
作者: InfinitySA (~我肥宅我有妹妹~)   2016-12-26 13:17:00
big data领域的话 那更是...囧
作者: blackacre (Black/White/Green acre)   2016-12-26 13:24:00
很同意整理转换资料很烦。自己想过做几个练习的题目都发现,找不到立即可用的训练资料,而要花很多时间整理
楼主: weinine32 (随意)   2016-12-26 15:23:00
大部份的时间都是花在ETL和取样
作者: viper9709 (阿达)   2016-12-26 15:39:00
推这篇~讲得很中肯
作者: chen1025 (小陈)   2016-12-26 20:46:00
作资料分析 都是转换资料 清洗资料的时间多 而这些都是程式的基本功 剩下丢给算法产生结果 这是最快的 有时还会再把结果输出到视觉工具观看

Links booklink

Contact Us: admin [ a t ] ucptt.com