Re: [请益] 机器学习在台湾的出路

楼主: f496328mm (为什么会流泪)   2017-08-29 00:36:16
前面有几篇说,拉一拉就好,连阿骂都会用.....
这也太扯了,就像 excel 、 spss,也是拉一拉就好了,
那写 R、Python 的是??? 写 code 就是有他的强项阿
况且你还要连 SQL ,甚至从 hadoop 捞 data ,阿骂这么强??
就不讲 data cleaning 了
确实目前工具很完善,随便都能做分析,做的很烂而已,
没做 feature engineering 的分析,顶多发硕论混毕业而已
feature engineering 绝对无法使用拖拉接口做出来,
以我做 Kaggle 上的 库存销售预测、购物篮分析、生产线分析 来说
feature engineering 完全不同,这需要一些经验,
特别是,书上都不会教你这些,只能靠实作累积经验
大家都用相同的 model,凭什么比别人好? 在 Kaggle 上这点就很明显,
你的 feature engineering 怎么做才是重点,
甚至是做 n-fold 去确保模型稳定,你不是靠运气选到好的 testing data
做 feature selection 找出关键变量,找出哪个制程影响最大、出问题,
再回去修正你的机台
用 ML 分析 data 也只是 data mining 的一小部分,
你要如何视觉化呈现?套件很多没错,那你要如何选择?要如何解释?
不是分析完就没事了,
Kaggle 比较著重在分析,但事前的 data 收集、data cleaning 所花的时间,
是分析的两三倍以上,原始 data 是非常脏的,
不同部门没整合就不用说了,变量命名不同,日期格式不同等等,会弄到崩溃
最后,单就 Kaggle 来说,依然有非常多企业丢出 data,丢出问题要你解决,
特别是目前 ML model 还在进化中,
最近 5 年出现的 XGB 打趴一堆 RF、SVM、GB 等,
同样问题,过去无法商业化,因为模型改进,未来有可能达到商业化的程度
比较可惜的是,台湾真正在做的很少,学校就不用讲了,一堆骗计画的,
不少研究生也说自己做过 ML ,用 SVM ,却连 Kernel 都不知道,
遇到 missing value 怎么处理?
特别是学校碰到的 data 都只是玩玩罢了,data 小就算了,
有些做二元分类连 imbalance 也不懂
另外国外这方面的职缺还是不少
在 kaggle 提供相关征才中,就有超过 20 家公司需要这方面的人才
https://www.kaggle.com/jobs
如果你只会拉一拉,调调参数,那不叫做资料科学
作者: celestialgod (天)   2017-08-29 00:38:00
正名一下 是eature engineering.../f
作者: Murasaki0110 (麦当劳欢乐送)   2017-08-29 00:41:00
一个学过小画家就说干嘛学photoshop的概念
作者: vu04y94 (今)   2017-08-29 01:18:00
为何讨论的方向偏向data mining了?
作者: lukelove (午睡)   2017-08-29 01:20:00
@@ 一直搞不清楚DM 跟 ML 的分界, 板上 比kaggle 的人这摸多, 想必如outrunner master等级的人也很多
作者: vu04y94 (今)   2017-08-29 01:25:00
我的意思是还有CV NLP之类的 尤其台湾作多媒体的公司不少啊
作者: popo14777 (草草)   2017-08-29 01:45:00
好像真正如大大所说的,都在骗计画..很多硕论都有SVM
作者: hsnuyi (羊咩咩~)   2017-08-29 02:17:00
原PO你是数学出生的吧 很多CS的都没你清楚啊XDD讲个笑话 为了跟上潮流 政府计画名称每几年就要改个一次一开始是智慧型XX 前几年改成前瞻XX 现在则变成了人工智能XX XDDD
作者: del680202 (HANA)   2017-08-29 07:27:00
外国外这方面的职缺还是不少 << 标题在问台湾来着
作者: angusyu (〒△〒)   2017-08-29 09:05:00
结论就是台湾没适合的职缺
作者: ken90242 (大人)   2017-08-29 09:52:00
这几篇弄的我好乱
作者: senjor (哞哞)   2017-08-29 09:57:00
我同意,我不认同的只是前几篇有人提到不会写自己的工具,只会拿别人工具来应用在案例上的人没出路,这其实不太合理
作者: ckp4131025 (ckp4131025)   2017-08-29 10:02:00
以后可能会分工成,model厂商和应用厂商吧,我觉得会类似eda,ide那种感觉
作者: exthrash (Wherever I may roam)   2017-08-29 11:02:00
这篇才是真正在业界的人会po的心得很多学生以为打打Kaggle 就跟实际工作差不多真正工作上data cleaning/preprocessing占了超多时间另外 懂数学 会让你调参数事半功倍
作者: jason91818 (jason)   2017-08-29 11:10:00
作者: Telemio (Telemio)   2017-08-29 12:25:00
推 真材实料心得
作者: lukelove (午睡)   2017-08-29 12:31:00
祝福大大早日 master
作者: gogogogo3333 (gogogogo33333)   2017-08-29 12:32:00
陈天奇 那种等级的 已经超出一般人境界了...
作者: lukelove (午睡)   2017-08-29 12:35:00
看看陈天奇的论文 数学推论成份也很高
作者: say29217074 (:)))))   2017-08-29 12:48:00
同意做过svm不知道KEREL那段qq
作者: stosto (树多)   2017-08-29 17:55:00
做SVM不知道kernel?另外使用很多算法都要自己创model出来那才是真的算法核心
作者: searcher ( )   2017-08-29 19:58:00
用autoML调参数呢?连用哪个算法也不用选了
作者: chocopie (好吃的巧克力派 :))   2017-08-29 20:43:00
我是看过很多报期末专案,SVM或RF之类的跑一跑,数据列一个小表格,好,结束。然后一学期的愉快课程又结束了XD摸完后回去继续做自己的前端/后端
作者: searcher ( )   2017-08-29 21:06:00
用竞赛的角度来说当然是比谁最厉害但不是所有的情况都是这样
作者: angusyu (〒△〒)   2017-08-29 22:33:00
我只想说,这世界有太多人瞧不起工具应用
作者: howhowyang (好好痒)   2017-08-30 02:21:00
真的!硕班做计画收来的资料真的很脏,preprocessing超花时间,不过跟大大接触过的资料比起来应该也只是小儿科
作者: senjor (哞哞)   2017-08-30 09:58:00
大家写的程式语言也不是自己开发的,这样程式怎么写的好(X
作者: lspci (awk sed echo)   2017-08-31 03:06:00
现在一堆脑残会算平均标准差就自诩资料科学家了
作者: ppc ( )   2017-09-02 18:37:00
这篇写得很好ㄟ刚碰Kaggle 真的觉得feature engineering很重要 请问有推荐的课程可以看吗 我是打算先看Johns Hopkins的Data Science感谢稍微喵一下感觉这课程好像不怎样@@

Links booklink

Contact Us: admin [ a t ] ucptt.com