以前硕士有做过机器学习,用的语言是Matlab(LIBSVM)、Python(scikit-learn)
都是用监督式学习来做预测(y's=实数),
算法大多都用SVR、随机森林、回归树、整体式学习等
资料学习的步骤是以下这样子
读取资料→资料前处理→分训练资料和测试资料→选取特征→建模→预测新资料
→画图或计算指标→分析结果
若预测不好,就返回修改算法参数,再建模,直到找出最佳模型
看到版上有人说机器学习数学要很强,还要自已写ML算法
不是都有人写好了吗?直接应用不是吗?
也许是小弟对于ML领域还未深入了解,只是想提出自已的问题
另外,若要往上述内容的工作(资料学习与分析),需要具备什么样的专业知识或门槛呢?
谢谢
作者: hsnuyi (羊咩咩~) 2017-08-28 13:28:00
说一下前处理和选取特征是如何达成的吧
作者:
dddddd67 (断水流大师兄)
2017-08-28 13:32:00只会用现成的套件,这样很多人都可以快速入门,替代性高
作者:
Jasonnor (Jasonnor)
2017-08-28 13:41:00自然是看你走的方向,理论模型和实际应用两者不尽相同,前者良好的数学基础会让你的模型简洁高效,后者更重视个人经验(包含模型选用、调参技巧和防止overfitting等),当然两者兼具的人会更有竞争力,这就看个人规划了
修参数不好吧,你不能保证,下次新的data,同样参数还能实用,应该要做feature engineering,从这去下手数学方面,起码要统计,而且你也说回归树了,不懂回归很难做,况且svm还有kernel要选,RF背后也一堆数学,起码要懂,不然参数根本乱调
实际上台湾也没什么产业需要人创新ML算法吧 多数精力
创新还是好的,拿XGB举例,paper还没发就超多人用,这就是价值而且不只是数学,这些方法都出来很久了,要靠资工去实作,例如GPU运算,这就是很大的突破,不只是DL,ML也在往这方向走
作者: hsnuyi (羊咩咩~) 2017-08-28 13:56:00
资料如果是自行取得的 还要懂survey sampling呢 科科
作者:
chter ((分身别查了XD))
2017-08-28 13:56:00套别人的算法谁都会,但也就没什么价值
作者:
justben (BEN)
2017-08-28 14:00:00现在是雷声大雨点小的状态,但两三年后不知道
两三年? 可是这些国外已经发展超过10年了光是 kaggle 就超过6年了
作者:
senjor (哞哞)
2017-08-28 14:27:00我觉得重点是在于,台湾业界真的有这种需求吗 www
作者:
Argos (Big doge is watching u)
2017-08-28 17:32:00所以搞自己的算法就有价值?你也要看是在哪里搞阿 厂厂
调参 模型选择 资料处理之类的看起来没什么技术 不过在工程上经验上就是价值 许多应用说穿了也没多深奥
只会这样结果大概是你的model70%别人95%,差别就在这
作者:
senjor (哞哞)
2017-08-28 19:17:00我之前在生状资讯上面大家更在意整体流程跟vector怎么选Kernel带来的效益反而不是重点,他们更想看见有效的vector跟资料处理流程怎么被不同的kernel验证是有效的。生物资讯
作者:
physheepy (~羊~乘着风中的羽翼)
2017-08-28 19:25:00因为你的资料都被整理好了 其实整理资料才是最难的部分
作者: Kazimir (Kazimir) 2017-08-28 19:35:00
feature engineering 的效果远远超过你选什么模型DL相对来说更自动化 不过人工选变量仍然有正面影响
data cleaning 就苦工最少人做,大家都想做data scientist
作者:
physheepy (~羊~乘着风中的羽翼)
2017-08-28 19:54:00data cleaning才是data science的精髓 所谓 garbage ingarbage out 算法已经满街都是 api简化到阿骂都会用市面上可以找到的database 没有一个可直接拿来做应用不过如果哪天G社把database都搞定上云端 那大家真的可以洗洗睡了 (烟
研究所部分,其实台湾学术圈就是这样,跟风骗经费的太多了,原PO可能不是,但太多教授根本不懂就在做计画,反正学术圈做的很烂也没人care
我也是正在用SVR于预测 虽然scikit-learn很方便但能不能了解SVR的原理然后去改它我想比较重要这也是很常被老师提醒的部份(不过还没自干出来啦...
作者:
ppc ( )
2017-09-02 18:35:00玩kaggle的心得是 feature engineering真的很重要 这方面又没经验 只好在网络上找课程上了