[问题] 机器学习sklearn模型与特征处理问题 wavek PTT批踢踢实业坊

[问题] 机器学习sklearn模型与特征处理问题

楼主: wavek (狗猫猫 m(OvO)m) 2019-02-19 18:02:03

大家好~
最近在学习sklearn的过程中遇到了一点小问题
来这边请教各位大神们
1.问题一
最近有一个问题是监督式分类问题
譬如铁达尼号乘客生存率好了
给的train data 里面就一堆特征
然后目标值y是0跟1 (1表示生存) 这样
这样我训练的模型丢进test的特征predict后
出来的结果也会是0跟1
可是要上传的评分结果是要0~1之间也就是生存的机率
这样的情况... 我应该要怎么做才正确?
目前是用sklearn的随机森林模型
我目前是有用predict_proba达到目的
但不确定predict_proba这样用法是否正确
还是有其它更正确模型或方法
2. 问题二
train的资料有y值
test的资料没有y值
想问问大家是怎么同时处理这两个的特征值
我在做特征处理的时候
是train的特征处理完
像是填补缺失值标准化等等...
接着
test的特征值
我是把前面处理train特征的code
复制一遍, 然后改成对test做处理
这样感觉有点怪
还是先把特征值合并,然后全部一起处理会比较好?

作者: st1009 (前端攻城师) 2019-02-19 18:56:00

DataScience板会是你的好朋友^^

作者: jiyu520 (不要鲫鱼我) 2019-02-19 19:22:00

可以看看kaggle的几个学习案例噢～

作者: jasonfghx (工人) 2019-02-19 19:43:00

test 没Y 那是要你自己预测出答案?

作者: Raymond0710 (雷门) 2019-02-19 21:45:00

train & test data 做同样的预处理呀你指的一起和分开是什么意思

作者: OnePiecePR (OPPR) 2019-02-19 22:39:00

0~1 问题就变成regression要换麻豆，但是找找，应该有 predition的possibility输出。不过你会这样问应该是回归跟分类的意义还要多看扎实一点比较好test 跟 train 的特征要一起处理，用 pd.concat 串啊，你有找到predict_proba，我多嘴了

作者: Luluemiko (露露) 2019-02-20 00:01:00

为何填空缺值的结果会不同?

作者: os653 2019-02-20 04:01:00

例如你拿该特征的平均值填缺值，有没有test算出来当然有差

作者: karco (karco) 2019-02-20 10:19:00

标准化时对训练资料用fit_transform测试资料用transform这样测试资料就会套用训练资料标准化时所用的参数，这样应该可以一致

继续阅读

[问题] 用Django制作可以用鼠标框选截取图片jasonfghx Re: [问题] 请问想查询高铁时刻表的问题chaotic0307 [教学] 交互式图片 - Annotationbrad0315 [问题] 天气api资料处理一问yuseke [心得] 分享台铁验证码辨识/转文字 packagef496328mm [问题] wxformbuilder增加listctrl的columnbrucetaco [问题] pd.pivot_table转换规则Laviathan [问题] package安装问题jacks90126 [折让] 巨匠电脑课程Ghamu Re: [问题] python 如何呼叫VB .Net的DLLa9202507