各位大大好: 小的最近参加一个比赛,但目前结果卡住中,不知道该怎么进行下去,
同时也有一些疑问在心中,希望各位大大能帮我解惑QQ
ex1:怎么确认overfitting的回合数?
附上做完cross validation两张图的结果,第一张图为AUC的结果,第二张图为标准差
(蓝色为training-set,绿色为validation-set的结果)
第一张图:https://imgur.com/9HRjStj
第二张图: https://imgur.com/a/O5jrA
另外我觉得也有一点蛮奇怪的:照理说training-set的error已经1.0了,为什么validation
set的分数还在持续上升中?我是用xgboost的cv套件,跟这个会有关系吗?
ex2:feature selection该怎么做?
另外一件事是我training的资料量大约五万多笔,目前使用的feature数目是一千多个
看起来会有维度诅咒的问题,但我若把维度下降至一百多维后再重新Training,
但结果似乎并不会比较好?如果我的维度下降得更多,结果似乎会变得稍差@@
想请问这样是我的feature selection没有做好吗?
ex3:stacking的结果没有比较好
我把 extraTree 、RandomForest、xgboost做stacking后,但结果似乎没有比较好?
不知道原因是什么?另外,想请问一件事,我stacking之前使用的所有算法的参数应该
要先tune完吗?如果把所有参数tune完后,再做Stacking,结果真的会比之前还好吗?
感觉我现在做的结果应该有盲点,但小弟弱弱的,不知道忽略了什么?
请各位大大指点迷津,感谢。