前面有几篇说,拉一拉就好,连阿骂都会用.....
这也太扯了,就像 excel 、 spss,也是拉一拉就好了,
那写 R、Python 的是??? 写 code 就是有他的强项阿
况且你还要连 SQL ,甚至从 hadoop 捞 data ,阿骂这么强??
就不讲 data cleaning 了
确实目前工具很完善,随便都能做分析,做的很烂而已,
没做 feature engineering 的分析,顶多发硕论混毕业而已
feature engineering 绝对无法使用拖拉接口做出来,
以我做 Kaggle 上的 库存销售预测、购物篮分析、生产线分析 来说
feature engineering 完全不同,这需要一些经验,
特别是,书上都不会教你这些,只能靠实作累积经验
大家都用相同的 model,凭什么比别人好? 在 Kaggle 上这点就很明显,
你的 feature engineering 怎么做才是重点,
甚至是做 n-fold 去确保模型稳定,你不是靠运气选到好的 testing data
做 feature selection 找出关键变量,找出哪个制程影响最大、出问题,
再回去修正你的机台
用 ML 分析 data 也只是 data mining 的一小部分,
你要如何视觉化呈现?套件很多没错,那你要如何选择?要如何解释?
不是分析完就没事了,
Kaggle 比较著重在分析,但事前的 data 收集、data cleaning 所花的时间,
是分析的两三倍以上,原始 data 是非常脏的,
不同部门没整合就不用说了,变量命名不同,日期格式不同等等,会弄到崩溃
最后,单就 Kaggle 来说,依然有非常多企业丢出 data,丢出问题要你解决,
特别是目前 ML model 还在进化中,
最近 5 年出现的 XGB 打趴一堆 RF、SVM、GB 等,
同样问题,过去无法商业化,因为模型改进,未来有可能达到商业化的程度
比较可惜的是,台湾真正在做的很少,学校就不用讲了,一堆骗计画的,
不少研究生也说自己做过 ML ,用 SVM ,却连 Kernel 都不知道,
遇到 missing value 怎么处理?
特别是学校碰到的 data 都只是玩玩罢了,data 小就算了,
有些做二元分类连 imbalance 也不懂
另外国外这方面的职缺还是不少
在 kaggle 提供相关征才中,就有超过 20 家公司需要这方面的人才
https://www.kaggle.com/jobs
如果你只会拉一拉,调调参数,那不叫做资料科学