[闲聊] 菜鸟上Kaggle: 房价预测

楼主: OnePiecePR (OPPR)   2018-02-13 22:30:24
这里有人玩 Kaggle 吗?
其实我还没认真坐坐下来学Python,也没其他程式经验。
只是朋友说Kaggle 很好玩,可以当作学 Python 的目标,建议每两周作一题,我就挑战
看看。
我做的是很久的题目,1460 笔房价资料,每笔资料79个特性。
训练后,要估另外1459笔资料回传让网站系统估算成绩。
我先花了四五天,整理资料(我以前 Excel 还可以),然后朋友丢一个 Lasso Regressi
on给我,我马上套用,算一个结果就上传... 以为这样就算完成一题。
结果被打抢,Error message 我没看清楚。
那一版真的很差,预估值误差 rmse 将近35000。
再花了一周时间,重新再整一次资料,边研究别人的方法,大致加了两招:XGB 跟 K fol
d 误差降低到15000 左右。我想大概是我的极限了。
过程中一直用的 bumpy,pandas,一下子 array, 一下子 dataframe, 花了不少时间处理
,应该乖乖坐下来搞懂才是。
作者: hl4 (Zec)   2018-02-14 00:27:00
你这 metric 是不是忘了取 log
作者: penolove (丑兽的女朋友)   2018-02-14 00:37:00
b 跟 n 很近
作者: EGsux (天龙人)   2018-02-14 08:38:00
呃 这样玩会学有点久 加油xd你留意一下其他人怎做 feature engineering
作者: CaptPlanet (ep)   2018-02-14 09:56:00
可以多看别人的kernel 进步会比较快
楼主: OnePiecePR (OPPR)   2018-02-14 09:58:00
感谢大家,我就让b 留着,纪录 b n 不远。也会去多看别人怎么作,还有楼上建议的 feature engineering对了,一楼说的我没作,在研究看看,感恩
作者: jackwang01 (艾斯比那)   2018-02-14 11:40:00
多跑几个random seed再把结果综合起来平均之类的,通常会有明显的进步
作者: galeondx   2018-03-06 04:44:00

Links booklink

Contact Us: admin [ a t ] ucptt.com