Re: [最强] 多多军号角响起!!! bleedwolf PTT批踢踢实业坊

Re: [最强] 多多军号角响起!!!

楼主: bleedwolf (123) 2016-05-03 09:40:02

※ 引述《GuitarOcean (有为而无所求)》之铭言：
: 上个月超忙的根本没时间看房版，
: 趁今天工工节来跑一下程式，结果不ey，ㄎ
: 多多指数=>
: 2015/ 7月: 204分
: 2015/ 8月: 180分
: 2015/ 9月: 166分
: 2015/10月: 150分
: 2015/11月: 176分
: 2015/12月: 173分
: 2016/ 1月: 183分
: 2016/ 2月: 327分
: 2016/ 3月: 277分
: 2016/ 4月: 354分
: ps: 等我余屋陆续售完就公开程式在github，供大家回测验证。
: ※ 引述《GuitarOcean (有为而无所求)》之铭言：
: : update 2016/ 3月: 277分
: : 但我以另一种指标来跑，3月是可以到4xx分，不过还是算了，避免空空崩溃，
: : 现实的风向已经出来了...
: : 最近好忙，看房子的人真的变潮多der...
不好意思，小弟刚好是作数理统计分析相关的
虽然不是正统的资料工程师，但是基本的数学模型和应用还算了解
也有用预测模型并发表在国际期刊，看到大家不断滥用大数据实在有点吐血
大概就是像生科的听到负离子衣和材料的听到奈米鸡排一样吧
在这边澄清一些观点 (有些中文可能翻译有误，因为我只学过英文)
有缺少的部份麻烦专业人士补充了
1. 大数据分析不是万能的
如果大数据分析是万能的，今天大家就不会去关注巴菲特或是索罗斯了
Google绝大部分的投资将是在股票和房地产
谁管Android系统那点蝇头小利?
大数据分析错误最有名就是Google预测流行感冒的模型(Google flu treads)
从2008年登上Nature期刊后都有很精准的预测
直到2013年发生140%的严重误差,失败的结果也登上Science期刊
普遍被称为大数据的傲慢 (Big data hubris)
2. 深度学习(Deep learning)并不是越深越好
机器学习上有一个重点是过度适应 (Overfitting)
概念就是当你过度趋近训练资料(training set)时
可能会让原本正确的判断失误
假设原本识别人脸的模型只看眼睛鼻子嘴巴耳朵
当模型过分深度学习后，可能会连毛细孔或鼻毛都算进去了
那今天我拿一张美肌后的图可能就会被认为不是人脸
3. 算法重要性远不如资料量，资料清理(data cleaning)，和特征选取
(Feature selection)
已经有很多期刊比较过不同算法的预测敏感度和专一性
结论都是算法的差距远比不上更多的资料量的差距
或是排除严重偏差值(outliers)及数值最佳化的方法
基本上从上面几点来看，你的预测本身准确度就不是太好
外加有很多疑团
一般建一个模型需要训练组，测试组和验证组
你只列了不到一年的数据是指样本数只有11嘛？
再好的统计法在这么小样本都不可能有好的结论
另外你有多少特征(Features)用来建模?
像是看屋量，成交量，gdp，股票指数之类的
如果只有10-100个，那总共也只不过是100x11(样本数)的计算量
我用过每个模型建几万个样本都不用半小时
跑过夜你是写了无穷循环嘛?
如果你有上千个特征而样本数比较小
那就一定会有过度适应的错误产生
当然你可以用降维的方法(PCA et.al )去修正
但是不管怎样都不至于跑预测这么久
另外那个数字到底是代表什么意思?
你用什么去测试和修正数字的准确度
模型预测没有这么莫名其妙的丢一个数字出来
应该会被一群教授电到飞天吧
就像前面好几个网友提过的
你的程式码根本不重要
把你的资料来源，输入资料和输出值的参考来源贴给我们就好

作者: HarryHTC (Harry) 2016-05-03 09:43:00

你的签名档好笑~~透露了原来你爸也是PTT乡民吗?

作者: achilles3875 (满潮永澄) 2016-05-03 09:44:00

用PSO GA选feature呢?大材小用?

作者: bbdirty5566 (尊爵不凡蓝鸟40) 2016-05-03 09:46:00

人家又不是在写期刊论文..在悲愤什么啊

作者: C13H16ClNO (3955 老地方见) 2016-05-03 09:49:00

挖矿挖矿～

楼主: bleedwolf (123) 2016-05-03 09:50:00

果然到处有大神 PSO我还真的不知道

作者: este1a (曾几何时臭机八) 2016-05-03 10:12:00

为什么要和没路用的认真呢？

作者: GoldenWasabi (黄金哇沙比) 2016-05-03 10:44:00

用量能当指标量大缩价也没大跌量增却觉得价要增不就是只听只看自己想要的东西而已

作者: tonyd (天生平凡) 2016-05-03 10:57:00

这篇在讲的可以在研究方法课程学到但说模型差异不如资料量差异这个结论是有前提的建议附上出处比较实在

作者: exuberant (HI BABY) 2016-05-03 11:03:00

结果才重要其他通通不重要

作者: Mrmo (哞...) 2016-05-03 11:04:00

某些文章当他不存在就好，没人理久了就会消失

楼主: bleedwolf (123) 2016-05-03 11:17:00

怕有人误信啊，我爸看了赖宇凡的影片一直跟我吵不要吃降胆固醇药，说什么胆固醇是对人体有益的，都是医师和药厂在骗人吃药，我怎么说和拿医学期刊给他都不听，搞到我都要比他先中风了，网络和长辈line群好容易害人

作者: dreamnook (亚龙) 2016-05-03 11:28:00

人们都不太愿意去确认资讯的真实性

作者: GuitarOcean (有为而无所求) 2016-05-03 12:25:00

钓出真正的高手惹

作者: yvonstaf (问妳自己为什么不肯改变) 2016-05-03 13:15:00

你真的认真了，推你的签名档

作者: shonbn 2016-05-03 14:06:00

嗨认真的人赖XX真的很烦...

作者: Dix123 (小蔡) 2016-05-03 14:21:00

挖矿挖到宝惹

作者: divergience (难得喝到 Cherry Coke) 2016-05-03 18:33:00

实在是太棒了，不得不推啊～

作者: IAvAI (><我不想取暱称><) 2016-05-03 19:40:00

推推推讲得很棒~!!

作者: q135q135 (打工仔) 2016-05-03 23:03:00

推~

作者: appoo (熊吉吉) 2016-05-03 23:36:00

真高手

作者: t932125 (用深情与你相约) 2016-05-04 07:20:00

专业

作者: CK888 (CK007) 2016-05-04 20:45:00

脸打的很响,,赞!

作者: wowo55 (55cat) 2016-05-05 02:55:00

好文，本版太多空酸跟伪多在放屁害人，实践胜于键盘！

继续阅读

[卖屋] 新竹长春大露台舒适超大三房 1238万bruceyin [请益] 桃园的使照核发速度vince02 Re: [买屋] 内湖q135q135 [买屋] 宏观大器三房GoodEnglish Re: [新闻] 社子岛开发案容积率拟调升至221%a386036 [请益] 台南安平区新屋透天两千起?zero730614 [卖屋] 台南中西区赤崁民族商圈8套房满租透天厝zeroyaking [请益] 抚顺街 17岁上吊nccu5566 [请益] 别墅但是土地共有未来如何改建???eddisontw [买屋] 中坜2房或3房suky45