[问题]各位大大想请问data anaylsis的一些问题

楼主: lance5487 ( )   2018-03-11 09:59:48
各位大大好: 小的最近参加一个比赛,但目前结果卡住中,不知道该怎么进行下去,
同时也有一些疑问在心中,希望各位大大能帮我解惑QQ
ex1:怎么确认overfitting的回合数?
附上做完cross validation两张图的结果,第一张图为AUC的结果,第二张图为标准差
(蓝色为training-set,绿色为validation-set的结果)
第一张图:https://imgur.com/9HRjStj
第二张图: https://imgur.com/a/O5jrA
另外我觉得也有一点蛮奇怪的:照理说training-set的error已经1.0了,为什么validation
set的分数还在持续上升中?我是用xgboost的cv套件,跟这个会有关系吗?
ex2:feature selection该怎么做?
另外一件事是我training的资料量大约五万多笔,目前使用的feature数目是一千多个
看起来会有维度诅咒的问题,但我若把维度下降至一百多维后再重新Training,
但结果似乎并不会比较好?如果我的维度下降得更多,结果似乎会变得稍差@@
想请问这样是我的feature selection没有做好吗?
ex3:stacking的结果没有比较好
我把 extraTree 、RandomForest、xgboost做stacking后,但结果似乎没有比较好?
不知道原因是什么?另外,想请问一件事,我stacking之前使用的所有算法的参数应该
要先tune完吗?如果把所有参数tune完后,再做Stacking,结果真的会比之前还好吗?
感觉我现在做的结果应该有盲点,但小弟弱弱的,不知道忽略了什么?
请各位大大指点迷津,感谢。
作者: f496328mm (为什么会流泪)   2018-03-11 11:46:00
feature selection 有一堆方法重点那些只是"方法" 并不代表select 之后 效果会好背后的假设都不同train and validation 够靠近 比较好靠近代表的意义是 你的 model 准确度并不会因为 data 而有所改变 这是我们期望的参数是最后在做的事你应该先专注在 feature engineering看起来你并没有对原始变量做延伸举例来说 y=log(x)+epsilon 但是你得到的只是 xfeature engineer 就是把这些关系找出来特征工程基本上都是 case by case想做的好 必须对该领域有足够的了解
作者: Jeffrey11061 (Jeff)   2018-03-12 15:41:00
ex1 原po 是不是想问如何决定而非确定,当training跟 cv开始分开,就代表overfitting开始发生所以要避免train出training & cv分太开的model

Links booklink

Contact Us: admin [ a t ] ucptt.com