※ 引述《lturtsamuel (港都都教授)》之铭言:
: 如题
: 机器学习是一个实验大于理论的领域
: 可能精准度一直卡在30%
: 结果调个参数忽然就冲破天花板惹~~~
: 所以一直有 the death of theory的说法
: 啾竟 在半夜三点deadline之前准确率突然暴冲一倍
: 有 多 爽 ㄋ ?
: 洒花 (* ̄▽ ̄)/ ‧☆*"`'*-.,_,.-
: 洒花 (* ̄▽ ̄)/ ‧☆*"`'*-.,_,.-
: 洒花 (* ̄▽ ̄)/ ‧☆*"`'*-.,_,.-
各位pavone、30cm、E cup、小妹、高富帅、胜利组、真强者、温拿,
大家好!打给后!胎嘎后!AV8D!
本鲁的强者朋友说,这不排除有overfitting的问题。他这样解释:
假设某课程为了测试本鲁的英文好不好,特地安排了两种考试,一种是练习考,从某个
1000题的题库随机抽取20题,可以让本鲁考任意多次,考到爽,另外一种是正式的考试,
其题库与练习考的题库完全无关。
那么本鲁虽然英文很烂,但可以一直考练习考,每次考完后,就把答案背起来,这样经
过很多次后,再怎么考练习考,本鲁都可以考100分了,因为全背好了。
可是本鲁的实力并没有显著提升,只要拿那1000题题库以外的题目再考考看,就露出马
脚了,所以正式考还是GG了。这就是overfitting。
在一堆资料里面,慢慢调参数,调到对这堆资料进行预测都很准(比方说看了资料的某几
个字段,就可以准确预测其他字段云云),就好像慢慢把1000题练习考的题目摸熟一样,
可以达到看似超强的效果,这就叫做overfitting,是一种看似超强的假像。
比较神秘的overfitting如下:
一些机器学习比赛有所谓的领先群记分板,这种比赛会先用一堆资料排一个初步的名次,
每支参赛队伍在这些资料上的预测精准度就是该队伍在记分板的分数,每当参赛队伍更新
其参赛程式,就会用同样一堆资料重测新程式的准确度,然后更新记分板上的分数与排名
。
但记分板只是娱乐之用,最后的真正排名是在另外一堆资料上之测试结果,与用来产生记
分板排名的资料无关。
最近就有人想出恶搞记分板的方法,注意每次你更新参赛程式后,记分板上的分数都重新
用“同一堆”资料测试,所以你可以先上传一支纯猜答案的参赛程式,看看得多少分,再
据此调整出下一支参赛程式,再看看得多少分,再调整出下一支参赛程式... 有人发现,
到最后竟然可以在不做任何真实learning的情况下,在记分板上得到超高排名,可以炫耀
,只是最后真正的排名因为是用另外一堆资料测试的,就会GG了。讲得有点fuzzy,请见
http://blog.mrtz.org/2015/03/09/competition.html
http://arxiv.org/pdf/1502.04585v1.pdf