Re: [请益] 如何踏入Data Mining/Engineers领域

楼主: DrTech (竹科管理处网军研发人员)   2014-07-24 21:23:30
※ 引述《robin112 (Robin)》之铭言:
: 小弟四中统计研究所应届毕业,
: 论文内容主要讨论logitudinal data的clustering,
: 会想踏入这个领域主要还是因为发现自己对于资料分析还是乐在其中XD
: 基本统计工具都还算可以(regression,GLM,multivariate analysis),
: 求学阶段也有使用过这些工具分析过一些小的raw data。
: 主要的语言工具为R(loop,array,function etc.)
: 可以将大部份知道逻辑或步骤的统计方法写出来,
: C++有摸过但不熟悉,目前正在跟着codecademy学Python,
: 目的是想作一些蜘蛛抓data下来,再进行后续分析来玩。
: 这一个多月在网络上投了不少Data Mining相关的履历,
: 有的职缺感觉条件蛮相符的却像石沉大海一般,
: 有些说可以培训或接受新鲜人也没有回应,
: 或是觉得我有潜力但还是不符要求。
: 看着身边不少同学都已经找到好工作了自己也开始紧张,
: 爬文也了解自己的弱势在于如何从数据库中抓data(ex:SQL),
: 以及现在流行的Hadoop及MapReduce等big data的技术,
: 但我疑惑的是,对业界而言是否不会这些技术就无法踏入?
: 因此想来请各位给我一点建议,谢谢!
最近我注意到相关职缺的公司有:
广告分析: Vpon、Appier
电信业: 远传、台湾大哥大
电子业: 台达电、中强光电、和硕联合
财团法人: III、ITRI
资讯服务: Trend、HTC
其他: 蓝科数位、新蛋
有些是要找有经验的人,有些是可接受新鲜人。工作机会应该是不少。
我看了您的叙述,感觉您最缺乏的就是一完整解决方案的描述,
例如: 一个商业需求出现后,资料撷取你都怎做,如何净化资料,因为该需求
如何选择分析方式,分析方式你怎么依据特定行业做调整,产生结果如何呈显,
如何验证资料...等等的完整描述。
若你有相关经验,应该于履历把这整个Solution简短的写出来。
不要断断续续地说你会什么工具或分析方法而已。
我想你硕士论文应该都有做,只怕你没有表现出来。
再来是工具部分,找工作时,请大胆的说你会 C++/Python,
若真的被考倒,尽力表达所知即可,不用怕考太差。
程式语言都可以工作时边做边学的。
最后,建议您先专注于能独立完成一个解决方案的技术,先不要管资料量大小。
例如你的解决方案需要SQL就去学,你的解决方案缺Python 就去学。
你的解决方案缺 Machine Learning的方法论就去学。
但先暂时不要管什么 Hadoop 与 Big Data。
对你现在的状况而言玩 Big Data的技术 C/P值太低了。
例如,MapReduce对我来说一直都是C/P值很低工具(虽然我用他解决了一些问题)
但 MapReduce 只是一个我处理资料时,批次分析的工具"之一",
可能某些专案用RDBMS来做就好,某些专案用NoSQL做就好。
另外现在国外大厂(例如:Hortonworks、Cloudera、MapR),都很邪恶。
为了自己的利益不断炒作新工具。例如一开始炒 MapReduce、Mahout
炒到没利益就开始炒各种 Interative query、searching、
最近又为了利益不断的说 MapReduce 有多烂。
用各种方式,想把已经很成熟,没利益空间的企业资料分析生态系统大赚一笔。
其实当初 MapReduce 刚出来时,猛炒传统分析方式该淘汰了,就有学者跳出来说,
这种批次处理方式,大量存取I/O的方式不就是在数据库技术还没出来时的方式吗?
分布式系统也是1990年就有的东西吗?
怎么在炒作这种倒退了20年技术的东西?
结果大家沸沸扬扬的吸金了几年后,果然MapReduce就逐渐被边缘化了。
至于新的替代技术,目前看起来也是商业炒作居多,
谁知道现在的商业炒作(例如:Spark),会不会主宰未来发展呢,
所以我对一般人的建议还是,多累积资料分析的专案经验,即使资料量少也没关系。
即使分析的结果不如预期也没关系,这都可以持续更新到履历表。
反而是Big Data,不是现在您该学习的重点。
作者: cpper (韩立)   2014-07-24 21:35:00
良心的建议,不要去 Vpon 和 I T R I除非 你认为刚开始就业的五年不重要 那就去吧...
作者: glaci (软趴趴)   2014-07-24 21:38:00
楼上有挂吗?
作者: infinitlee (...)   2014-07-24 21:46:00
一楼有挂吗 @@
作者: kangta0819 (崭新)   2014-07-24 21:58:00
除了一楼说的那两个以外,还有...
作者: appleboy46 (小恶魔)   2014-07-24 22:31:00
Vpon 最近不是还蛮有名的?募资
作者: YishengSu (快乐的多多)   2014-07-24 22:38:00
最近一堆人在找这类的职缺 听到BIG DATA眼睛都亮了
作者: minikai (一肚子拐)   2014-07-24 22:48:00
Spark 也是用MapReduce的架构在分布式运算 底层更是用HDFS去当档案系统 Hadoop还是有它的可取之处要说MapReduce被边缘化吗??? 我觉得还是可以去学不过原PO还是要先以加强程式设计的能力为优先
作者: ckaha (★闪亮数学推理★)   2014-07-24 23:22:00
怎么不提金融业和医疗业呢?
作者: lovdkkkk (dk)   2014-07-24 23:29:00
有认识的在 Vpon 薪水还不错 (80k+/月)
作者: robin112 (Robin)   2014-07-24 23:57:00
谢谢Drtech大及各位的帮忙,我想我知道短时间内该怎么作了,我会把我近几年所作的资料分析报告作一个整理,再来投履历,还是谢谢大家这两天的帮忙!感激不尽!之后如果有获得面试或offer的机会再将经验分享给板友们!
作者: timTan (用口头禅区分年记)   2014-07-25 00:29:00
讲炒作有点太过了,就是出现了比 map reduce 好的东西阿
作者: damody (天亮damody)   2014-07-25 01:16:00
中华电也有好几个team在做啊,中华电底层都自己做,整个环境到tools全部自己来,又有大量电信网络资料整个OP
作者: neo5277 (I am an agent of chaos)   2014-07-25 01:38:00
以前在金融业一阵子,自己是觉得要做这个拿什么资料做研究跟什么项目比,有结果后怎么建立模型这样比较重要其他都可以练,但是上述那些又不是学校统计教的都偏应用了
作者: dennis2030 (绿豆)   2014-07-25 01:40:00
MapReduce没这么一文不值吧,速度不快,但coding需要花的effort的确减少很多,很多都帮你做完了
作者: dryman (dryman)   2014-07-26 07:46:00
Hadoop MapReduce的优势在于throughput很大我们公司用MR处理每日TB等级的资料用得很顺手,没到边缘化那么夸张
作者: kimiyuan (kimiko)   2014-07-26 11:55:00
前阵子去某v面试,主管26中庸, HR非常专业!让我开完薪资就请客了。(怕有手尾跟,内容仅供参考自行解读)
作者: paaju (趴啾)   2014-07-28 09:50:00
那个主管不是26,他是华侨

Links booklink

Contact Us: admin [ a t ] ucptt.com