Re: [请益] 机器学习在台湾的出路 f496328mm PTT批踢踢实业坊

Re: [请益] 机器学习在台湾的出路

楼主: f496328mm (为什么会流泪) 2017-08-29 00:36:16

前面有几篇说，拉一拉就好，连阿骂都会用.....
这也太扯了，就像 excel 、 spss，也是拉一拉就好了，
那写 R、Python 的是??? 写 code 就是有他的强项阿
况且你还要连 SQL ，甚至从 hadoop 捞 data ，阿骂这么强？？
就不讲 data cleaning 了
确实目前工具很完善，随便都能做分析，做的很烂而已，
没做 feature engineering 的分析，顶多发硕论混毕业而已
feature engineering 绝对无法使用拖拉接口做出来，
以我做 Kaggle 上的库存销售预测、购物篮分析、生产线分析来说
feature engineering 完全不同，这需要一些经验，
特别是，书上都不会教你这些，只能靠实作累积经验
大家都用相同的 model，凭什么比别人好? 在 Kaggle 上这点就很明显，
你的 feature engineering 怎么做才是重点，
甚至是做 n-fold 去确保模型稳定，你不是靠运气选到好的 testing data
做 feature selection 找出关键变量，找出哪个制程影响最大、出问题，
再回去修正你的机台
用 ML 分析 data 也只是 data mining 的一小部分，
你要如何视觉化呈现？套件很多没错，那你要如何选择？要如何解释？
不是分析完就没事了，
Kaggle 比较著重在分析，但事前的 data 收集、data cleaning 所花的时间，
是分析的两三倍以上，原始 data 是非常脏的，
不同部门没整合就不用说了，变量命名不同，日期格式不同等等，会弄到崩溃
最后，单就 Kaggle 来说，依然有非常多企业丢出 data，丢出问题要你解决，
特别是目前 ML model 还在进化中，
最近 5 年出现的 XGB 打趴一堆 RF、SVM、GB 等，
同样问题，过去无法商业化，因为模型改进，未来有可能达到商业化的程度
比较可惜的是，台湾真正在做的很少，学校就不用讲了，一堆骗计画的，
不少研究生也说自己做过 ML ，用 SVM ，却连 Kernel 都不知道，
遇到 missing value 怎么处理?
特别是学校碰到的 data 都只是玩玩罢了，data 小就算了，
有些做二元分类连 imbalance 也不懂
另外国外这方面的职缺还是不少
在 kaggle 提供相关征才中，就有超过 20 家公司需要这方面的人才
https://www.kaggle.com/jobs
如果你只会拉一拉，调调参数，那不叫做资料科学

作者: celestialgod (å¤©) 2017-08-29 00:38:00

正名一下是eature engineering.../f

作者: Murasaki0110 (麦当劳欢乐送) 2017-08-29 00:41:00

一个学过小画家就说干嘛学photoshop的概念

作者: vu04y94 (今) 2017-08-29 01:18:00

为何讨论的方向偏向data mining了?

作者: lukelove (午睡) 2017-08-29 01:20:00

@@ 一直搞不清楚DM 跟 ML 的分界, 板上比kaggle 的人这摸多, 想必如outrunner master等级的人也很多

作者: vu04y94 (今) 2017-08-29 01:25:00

我的意思是还有CV NLP之类的尤其台湾作多媒体的公司不少啊

作者: popo14777 (草草) 2017-08-29 01:45:00

好像真正如大大所说的，都在骗计画..很多硕论都有SVM

作者: hsnuyi (羊咩咩~) 2017-08-29 02:17:00

原PO你是数学出生的吧很多CS的都没你清楚啊XDD讲个笑话为了跟上潮流政府计画名称每几年就要改个一次一开始是智慧型XX 前几年改成前瞻XX 现在则变成了人工智能XX XDDD

作者: del680202 (HANA) 2017-08-29 07:27:00

外国外这方面的职缺还是不少 << 标题在问台湾来着

作者: angusyu (〒△〒) 2017-08-29 09:05:00

结论就是台湾没适合的职缺

作者: ken90242 (大人) 2017-08-29 09:52:00

这几篇弄的我好乱

作者: senjor (哞哞) 2017-08-29 09:57:00

我同意，我不认同的只是前几篇有人提到不会写自己的工具，只会拿别人工具来应用在案例上的人没出路，这其实不太合理

作者: ckp4131025 (ckp4131025) 2017-08-29 10:02:00

以后可能会分工成，model厂商和应用厂商吧，我觉得会类似eda,ide那种感觉

作者: exthrash (Wherever I may roam) 2017-08-29 11:02:00

这篇才是真正在业界的人会po的心得很多学生以为打打Kaggle 就跟实际工作差不多真正工作上data cleaning/preprocessing占了超多时间另外懂数学会让你调参数事半功倍

作者: jason91818 (jason) 2017-08-29 11:10:00

推

作者: Telemio (Telemio) 2017-08-29 12:25:00

推真材实料心得

作者: lukelove (午睡) 2017-08-29 12:31:00

祝福大大早日 master

作者: gogogogo3333 (gogogogo33333) 2017-08-29 12:32:00

陈天奇那种等级的已经超出一般人境界了...

作者: lukelove (午睡) 2017-08-29 12:35:00

看看陈天奇的论文数学推论成份也很高

作者: say29217074 (:))))) 2017-08-29 12:48:00

同意做过svm不知道KEREL那段qq

作者: stosto (树多) 2017-08-29 17:55:00

做SVM不知道kernel?另外使用很多算法都要自己创model出来那才是真的算法核心

作者: searcher ( ) 2017-08-29 19:58:00

用autoML调参数呢?连用哪个算法也不用选了

作者: chocopie (好吃的巧克力派 :)) 2017-08-29 20:43:00

我是看过很多报期末专案，SVM或RF之类的跑一跑，数据列一个小表格，好，结束。然后一学期的愉快课程又结束了XD摸完后回去继续做自己的前端/后端

作者: searcher ( ) 2017-08-29 21:06:00

用竞赛的角度来说当然是比谁最厉害但不是所有的情况都是这样

作者: angusyu (〒△〒) 2017-08-29 22:33:00

我只想说，这世界有太多人瞧不起工具应用

作者: howhowyang (好好痒) 2017-08-30 02:21:00

真的！硕班做计画收来的资料真的很脏，preprocessing超花时间，不过跟大大接触过的资料比起来应该也只是小儿科

作者: senjor (哞哞) 2017-08-30 09:58:00

大家写的程式语言也不是自己开发的，这样程式怎么写的好(X

作者: lspci (awk sed echo) 2017-08-31 03:06:00

现在一堆脑残会算平均标准差就自诩资料科学家了

作者: ppc ( ) 2017-09-02 18:37:00

这篇写得很好ㄟ刚碰Kaggle 真的觉得feature engineering很重要请问有推荐的课程可以看吗我是打算先看Johns Hopkins的Data Science感谢稍微喵一下感觉这课程好像不怎样@@

继续阅读

[请益] 动画业 Pipeline TDz5612365 转[征才] 趋势科技征软件测试工程师dadaray Re: [请益] 机器学习在台湾的出路NUKnigel [请益] 前进国际-顾问SearchNow Re: [请益] 机器学习在台湾的出路langrisser19 Re: [请益] 机器学习在台湾的出路del680202 [请益] 先工作还是先准备作品？nereuseng [请益] VS2015 express chtdinroyal Re: [请益] 机器学习在台湾的出路popo14777 [征才] 云发科技 Frontend Engineer 60~90/YrDeDanann