※ 引述《GuitarOcean (有为而无所求)》之铭言:
: 上个月超忙的根本没时间看房版,
: 趁今天工工节来跑一下程式,结果不ey,ㄎ
: 多多指数=>
: 2015/ 7月: 204分
: 2015/ 8月: 180分
: 2015/ 9月: 166分
: 2015/10月: 150分
: 2015/11月: 176分
: 2015/12月: 173分
: 2016/ 1月: 183分
: 2016/ 2月: 327分
: 2016/ 3月: 277分
: 2016/ 4月: 354分
: ps: 等我余屋陆续售完就公开程式在github,供大家回测验证。
: ※ 引述《GuitarOcean (有为而无所求)》之铭言:
: : update 2016/ 3月: 277分
: : 但我以另一种指标来跑,3月是可以到4xx分,不过还是算了,避免空空崩溃,
: : 现实的风向已经出来了...
: : 最近好忙,看房子的人真的变潮多der...
不好意思,小弟刚好是作数理统计分析相关的
虽然不是正统的资料工程师,但是基本的数学模型和应用还算了解
也有用预测模型并发表在国际期刊,看到大家不断滥用大数据实在有点吐血
大概就是像生科的听到负离子衣和材料的听到奈米鸡排一样吧
在这边澄清一些观点 (有些中文可能翻译有误,因为我只学过英文)
有缺少的部份麻烦专业人士补充了
1. 大数据分析不是万能的
如果大数据分析是万能的,今天大家就不会去关注巴菲特或是索罗斯了
Google绝大部分的投资将是在股票和房地产
谁管Android系统那点蝇头小利?
大数据分析错误最有名就是Google预测流行感冒的模型(Google flu treads)
从2008年登上Nature期刊后都有很精准的预测
直到2013年发生140%的严重误差,失败的结果也登上Science期刊
普遍被称为大数据的傲慢 (Big data hubris)
2. 深度学习(Deep learning)并不是越深越好
机器学习上有一个重点是过度适应 (Overfitting)
概念就是当你过度趋近训练资料(training set)时
可能会让原本正确的判断失误
假设原本识别人脸的模型只看眼睛鼻子嘴巴耳朵
当模型过分深度学习后,可能会连毛细孔或鼻毛都算进去了
那今天我拿一张美肌后的图可能就会被认为不是人脸
3. 算法重要性远不如资料量,资料清理(data cleaning),和特征选取
(Feature selection)
已经有很多期刊比较过不同算法的预测敏感度和专一性
结论都是算法的差距远比不上更多的资料量的差距
或是排除严重偏差值(outliers)及数值最佳化的方法
基本上从上面几点来看,你的预测本身准确度就不是太好
外加有很多疑团
一般建一个模型需要训练组,测试组和验证组
你只列了不到一年的数据是指样本数只有11嘛?
再好的统计法在这么小样本都不可能有好的结论
另外你有多少特征(Features)用来建模?
像是看屋量,成交量,gdp,股票指数之类的
如果只有10-100个,那总共也只不过是100x11(样本数)的计算量
我用过每个模型建几万个样本都不用半小时
跑过夜你是写了无穷循环嘛?
如果你有上千个特征而样本数比较小
那就一定会有过度适应的错误产生
当然你可以用降维的方法(PCA et.al )去修正
但是不管怎样都不至于跑预测这么久
另外那个数字到底是代表什么意思?
你用什么去测试和修正数字的准确度
模型预测没有这么莫名其妙的丢一个数字出来
应该会被一群教授电到飞天吧
就像前面好几个网友提过的
你的程式码根本不重要
把你的资料来源,输入资料和输出值的参考来源贴给我们就好