[分享] R资料比赛

楼主: celestialgod (天)   2014-07-13 01:06:00
运气很好,在硕班最后一年还有机会参加到R的资料比赛
感谢主办单位 中华R软件研发暨应用协会 以及 中国医药大学
比赛网址如下:
http://www.carra.org.tw/dm/
比赛方式很简单,跟我们统计咨询课很类似
给我们一笔资料,我们自己找到想要研究的对象进行分析
我个人猜测资料是出自政府所推出的 不动产实价登录系统
但是我们没有实际去下载资料,不过网络上已经有人取得并公布我们手上的资料
我们今天查的结果是直到今日可供下载的资料笔数为76万笔
我们手上拿到的资料为68万笔,着实为不小的数目了
(更新:查询之后,确实为政府实价登录的公开资料 连结如下:
http://plvr.land.moi.gov.tw/DownloadOpenData )
简单介绍一下资料,资料为22个县市不动产价格买卖纪录,
不动产项目主要为五种,土地、建物、房地(土地+建物)、车位以及
房地(土地+建物)+车位,
每一笔资料基本上都有纪录这笔资料共交易了几笔土地、几笔建物以及几笔车位,
还有总售价、移转总面积、土地总面积等28个变量(显示字段个数)。
简单给大家看一下北市的资料:
http://ppt.cc/PrKY
可以看到其实各个字段还有missing、人为错误或是不同房地产有不同的变量等情形
我认为很幸运的是这笔资料只有28个变量,我们选一个目标变量后
从27个变量中选择可解释的变量即可。
但是如前所述,这笔资料存在很多问题,
非常考验每一个参赛队伍对于资料的前处理功夫。
我们这组自信没办法对全部的不动产做Modeling,
我们果断只选择有含盖建物的不动产资料做分析,
并且经过前处理资料得到下面18个变量,
变量名称 说明
单价(元/平方公尺) 原附载资料 (为我们的目标变量)
县市 每个县市做一个indicator
土地移转总面积(平方公尺) 原附载资料
使用分区或编定 原附载资料
交易年月 转换为以民国1年1月为基准的计月资料
总层数 原附载资料
建物型态 原附载资料
主要建材 转为是否为钢筋混凝土造
建物移转总面积(平方公尺) 原附载资料
建物现况格局-房 原附载资料
建物现况格局-厅 原附载资料
建物现况格局-卫 原附载资料
建物现况格局-格局 原附载资料
有无管理组织 原附载资料
车位移转总面积(平方公尺) 原附载资料
土地数目 切割“交易笔栋数”的字段
建物数目 切割“交易笔栋数”的字段
车位数目 切割“交易笔栋数”的字段
经过处理之后,我们不考虑有遗失值的资料(共删除六千笔左右含有遗失值的资料)
剩下资料为47万笔左右,我们对这47万笔资料做log-linear model
估计方法有两种,一为OLS,另一为group lasso,
而我们两个模型最后的prediction error都介于0.19到0.22之间,
而且OLS的判定系数为61%左右,我个人以为我们这组做得还算不错。
只可惜时间真的很短很短,从上午九点开始到下午四点,
我们浏览资料、讨论、资料前处理以及决定目标变量之后,
就已经下午两点半了,我们只利用一个小时做建模,真的非常赶....
我们R code利用K & R style,资料前处理大概花了两页半,
资料浏览(绘图)花了一页,最后建模用了一页半。
最后,我想说的是big data远不止如此,未来挑战一定更多(叹气...
大家加油!!!! XD
结果讨论:
我们还删掉了近三分之一的资料,然后直接忽视遗失值,
直接考虑只有建物价格的模型,我个人觉得非常大胆,
如果有时间,其实可以再针对土地、车位做另一个模型做评估。
还请各位先进指教。
最后谢谢辅大提供如此优良的比赛场所,
还有我优秀的队友们!!!!
希望可以去拿奖金回来XDD
[关键字]: R资料比赛
作者: Wush978 (拒看低质媒体)   2014-07-13 08:55:00
谢谢分享
作者: berthandsome (Bert)   2014-07-22 00:42:00
感觉比赛关键会是在遗失值的处理,谢谢分享给推

Links booklink

Contact Us: admin [ a t ] ucptt.com