[问题] 机器学习sklearn模型与特征处理问题

楼主: wavek (狗猫猫 m(OvO)m)   2019-02-19 18:02:03
大家好~
最近在学习sklearn的过程中遇到了一点小问题
来这边请教各位大神们
1.问题一
最近有一个问题是监督式分类问题
譬如铁达尼号乘客生存率好了
给的train data 里面就一堆特征
然后目标值y是0跟1 (1表示生存) 这样
这样我训练的模型 丢进test的特征predict后
出来的结果也会是0跟1
可是要上传的评分结果 是要0~1之间 也就是生存的机率
这样的情况... 我应该要怎么做才正确?
目前是用sklearn的随机森林模型
我目前是有用predict_proba达到目的
但不确定predict_proba这样用法是否正确
还是有其它更正确模型或方法
2. 问题二
train的资料 有y值
test的资料 没有y值
想问问大家是怎么同时处理这两个的特征值
我在做特征处理的时候
是train的特征处理完
像是填补缺失值 标准化等等...
接着
test的特征值
我是把前面处理train特征的code
复制一遍, 然后改成对test做处理
这样感觉有点怪
还是先把特征值合并,然后全部一起处理会比较好?
作者: st1009 (前端攻城师)   2019-02-19 18:56:00
DataScience板会是你的好朋友^^
作者: jiyu520 (不要鲫鱼我)   2019-02-19 19:22:00
可以看看kaggle的几个学习案例噢~
作者: jasonfghx (工人)   2019-02-19 19:43:00
test 没Y 那是要你自己预测出答案?
作者: Raymond0710 (雷门)   2019-02-19 21:45:00
train & test data 做同样的预处理呀你指的一起和分开是什么意思
作者: OnePiecePR (OPPR)   2019-02-19 22:39:00
0~1 问题就变成regression要换 麻豆,但是找找,应该有 predition的possibility输出。不过你会这样问应该是回归跟分类的意义还要多看扎实一点比较好test 跟 train 的特征要一起处理,用 pd.concat 串啊,你有找到predict_proba,我多嘴了
作者: Luluemiko (露露)   2019-02-20 00:01:00
为何填空缺值的结果会不同?
作者: os653   2019-02-20 04:01:00
例如你拿该特征的平均值填缺值,有没有test算出来当然有差
作者: karco (karco)   2019-02-20 10:19:00
标准化时对训练资料用fit_transform测试资料用transform这样测试资料就会套用训练资料标准化时所用的参数,这样应该可以一致

Links booklink

Contact Us: admin [ a t ] ucptt.com