楼主:
wavek (狗猫猫 m(OvO)m)
2019-02-19 18:02:03大家好~
最近在学习sklearn的过程中遇到了一点小问题
来这边请教各位大神们
1.问题一
最近有一个问题是监督式分类问题
譬如铁达尼号乘客生存率好了
给的train data 里面就一堆特征
然后目标值y是0跟1 (1表示生存) 这样
这样我训练的模型 丢进test的特征predict后
出来的结果也会是0跟1
可是要上传的评分结果 是要0~1之间 也就是生存的机率
这样的情况... 我应该要怎么做才正确?
目前是用sklearn的随机森林模型
我目前是有用predict_proba达到目的
但不确定predict_proba这样用法是否正确
还是有其它更正确模型或方法
2. 问题二
train的资料 有y值
test的资料 没有y值
想问问大家是怎么同时处理这两个的特征值
我在做特征处理的时候
是train的特征处理完
像是填补缺失值 标准化等等...
接着
test的特征值
我是把前面处理train特征的code
复制一遍, 然后改成对test做处理
这样感觉有点怪
还是先把特征值合并,然后全部一起处理会比较好?