※ 引述《robin112 (Robin)》之铭言:
: 小弟四中统计研究所应届毕业,
: 论文内容主要讨论logitudinal data的clustering,
: 会想踏入这个领域主要还是因为发现自己对于资料分析还是乐在其中XD
: 基本统计工具都还算可以(regression,GLM,multivariate analysis),
: 求学阶段也有使用过这些工具分析过一些小的raw data。
: 主要的语言工具为R(loop,array,function etc.)
: 可以将大部份知道逻辑或步骤的统计方法写出来,
: C++有摸过但不熟悉,目前正在跟着codecademy学Python,
: 目的是想作一些蜘蛛抓data下来,再进行后续分析来玩。
: 这一个多月在网络上投了不少Data Mining相关的履历,
: 有的职缺感觉条件蛮相符的却像石沉大海一般,
: 有些说可以培训或接受新鲜人也没有回应,
: 或是觉得我有潜力但还是不符要求。
: 看着身边不少同学都已经找到好工作了自己也开始紧张,
: 爬文也了解自己的弱势在于如何从数据库中抓data(ex:SQL),
: 以及现在流行的Hadoop及MapReduce等big data的技术,
: 但我疑惑的是,对业界而言是否不会这些技术就无法踏入?
: 因此想来请各位给我一点建议,谢谢!
最近我注意到相关职缺的公司有:
广告分析: Vpon、Appier
电信业: 远传、台湾大哥大
电子业: 台达电、中强光电、和硕联合
财团法人: III、ITRI
资讯服务: Trend、HTC
其他: 蓝科数位、新蛋
有些是要找有经验的人,有些是可接受新鲜人。工作机会应该是不少。
我看了您的叙述,感觉您最缺乏的就是一完整解决方案的描述,
例如: 一个商业需求出现后,资料撷取你都怎做,如何净化资料,因为该需求
如何选择分析方式,分析方式你怎么依据特定行业做调整,产生结果如何呈显,
如何验证资料...等等的完整描述。
若你有相关经验,应该于履历把这整个Solution简短的写出来。
不要断断续续地说你会什么工具或分析方法而已。
我想你硕士论文应该都有做,只怕你没有表现出来。
再来是工具部分,找工作时,请大胆的说你会 C++/Python,
若真的被考倒,尽力表达所知即可,不用怕考太差。
程式语言都可以工作时边做边学的。
最后,建议您先专注于能独立完成一个解决方案的技术,先不要管资料量大小。
例如你的解决方案需要SQL就去学,你的解决方案缺Python 就去学。
你的解决方案缺 Machine Learning的方法论就去学。
但先暂时不要管什么 Hadoop 与 Big Data。
对你现在的状况而言玩 Big Data的技术 C/P值太低了。
例如,MapReduce对我来说一直都是C/P值很低工具(虽然我用他解决了一些问题)
但 MapReduce 只是一个我处理资料时,批次分析的工具"之一",
可能某些专案用RDBMS来做就好,某些专案用NoSQL做就好。
另外现在国外大厂(例如:Hortonworks、Cloudera、MapR),都很邪恶。
为了自己的利益不断炒作新工具。例如一开始炒 MapReduce、Mahout
炒到没利益就开始炒各种 Interative query、searching、
最近又为了利益不断的说 MapReduce 有多烂。
用各种方式,想把已经很成熟,没利益空间的企业资料分析生态系统大赚一笔。
其实当初 MapReduce 刚出来时,猛炒传统分析方式该淘汰了,就有学者跳出来说,
这种批次处理方式,大量存取I/O的方式不就是在数据库技术还没出来时的方式吗?
分布式系统也是1990年就有的东西吗?
怎么在炒作这种倒退了20年技术的东西?
结果大家沸沸扬扬的吸金了几年后,果然MapReduce就逐渐被边缘化了。
至于新的替代技术,目前看起来也是商业炒作居多,
谁知道现在的商业炒作(例如:Spark),会不会主宰未来发展呢,
所以我对一般人的建议还是,多累积资料分析的专案经验,即使资料量少也没关系。
即使分析的结果不如预期也没关系,这都可以持续更新到履历表。
反而是Big Data,不是现在您该学习的重点。