[问题]各位大大想请问data anaylsis的一些问题 lance5487 PTT批踢踢实业坊

[问题]各位大大想请问data anaylsis的一些问题

楼主: lance5487 ( ) 2018-03-11 09:59:48

各位大大好：小的最近参加一个比赛，但目前结果卡住中，不知道该怎么进行下去，
同时也有一些疑问在心中，希望各位大大能帮我解惑QQ
ex1:怎么确认overfitting的回合数?
附上做完cross validation两张图的结果，第一张图为AUC的结果，第二张图为标准差
(蓝色为training-set，绿色为validation-set的结果)
第一张图：

第二张图:

另外我觉得也有一点蛮奇怪的:照理说training-set的error已经1.0了，为什么validation
set的分数还在持续上升中?我是用xgboost的cv套件，跟这个会有关系吗?
ex2:feature selection该怎么做?
另外一件事是我training的资料量大约五万多笔，目前使用的feature数目是一千多个
看起来会有维度诅咒的问题，但我若把维度下降至一百多维后再重新Training，
但结果似乎并不会比较好?如果我的维度下降得更多，结果似乎会变得稍差@@
想请问这样是我的feature selection没有做好吗?
ex3:stacking的结果没有比较好
我把 extraTree 、RandomForest、xgboost做stacking后，但结果似乎没有比较好?
不知道原因是什么?另外，想请问一件事，我stacking之前使用的所有算法的参数应该
要先tune完吗?如果把所有参数tune完后，再做Stacking，结果真的会比之前还好吗?
感觉我现在做的结果应该有盲点，但小弟弱弱的，不知道忽略了什么?
请各位大大指点迷津，感谢。

作者: f496328mm (为什么会流泪) 2018-03-11 11:46:00

feature selection 有一堆方法重点那些只是"方法" 并不代表select 之后效果会好背后的假设都不同train and validation 够靠近比较好靠近代表的意义是你的 model 准确度并不会因为 data 而有所改变这是我们期望的参数是最后在做的事你应该先专注在 feature engineering看起来你并没有对原始变量做延伸举例来说 y=log(x)+epsilon 但是你得到的只是 xfeature engineer 就是把这些关系找出来特征工程基本上都是 case by case想做的好必须对该领域有足够的了解

作者: Jeffrey11061 (Jeff) 2018-03-12 15:41:00

ex1 原po 是不是想问如何决定而非确定，当training跟 cv开始分开，就代表overfitting开始发生所以要避免train出training & cv分太开的model

继续阅读

Re: 如何呼叫另一档案里def里的参数flarehunter Re: 如何呼叫另一档案里def里的参数Paudse [问题] 将for循环中所出现的值储存成矩阵RX480 [问题] 以jupyter教学python的书籍请益Mochahaha 如何呼叫另一档案里def里的参数Paudse [问题] 自动分析log产生report定时寄mail的功能VAIOBIOS [问题] 关于HOG特征的视觉化neil987 [问题] No module named 'fake_useragent'levenspiel [问题] tkinter标签资料重复读取档时并不会覆蓋suwolanjio [问题] python response 问题fordpines