Re: [好文推荐] 这两盘棋 没人会比李世石做得好

楼主: fallcolor (秋天走了)   2016-03-12 11:35:18
有些观念我觉得要厘清一下比较好
ML的训练过程说穿了也只是一种数学问题
要分析算法还是得回到数学的本质
既然Alphago的决策模式加入了随机性
再加上训练NN的过程也不能保证得到global optimum
换言之
不管你在training阶段喂多棒的data进去
testting阶段就是有机会掉到local optimum
而当local optimum距离真正的global optimum很远时
预测就可能出错
NN模型具有弱点可以从不同面向说明:
1. 因为它的数学模型复杂, 不属于convex函数
任何最佳化算法本来就不能在这类模型上保证得到global optimum
2. 训练时采用的stochast gradient descent算法
本身就是局部最佳求解的方式之一
3. 训练过程中其实也参与一些随机的机制 (dropout)
现在NN能再红起来是靠大数据加上研究者聪明的训练方式
(冠上deep learning之名重新出发)
很大程度地压抑住上面的本质问题
但不代表它就没有被破解的空间
否则那些研究如何加噪声使模型失效的研究者不就是做心酸的吗
:
作者: darkseer   2016-03-12 11:39:00
推,请问喂什么data有什么一般理论吗?好像有时候要喂好的,有时候要喂unbiased的,譬如说AlphaGo这么强,但是似乎也不是自己喂给自己?
楼主: fallcolor (秋天走了)   2016-03-12 11:45:00
看data source的性质 如果是像sensor收到的这种数值
作者: Tkuei (it's me)   2016-03-12 11:46:00
可是就我所知,deep跟传统的ML很不一样
楼主: fallcolor (秋天走了)   2016-03-12 11:46:00
势必带noise 那训练阶段就要故意加一点noisy data下去
作者: AmuroRay (联邦の白き流星)   2016-03-12 11:46:00
我一直觉得 好像真的认为AG找到的是最佳解的人没那么多只是争论的是当它下出一个看似有问题的手(如果不是简单逻辑就能判断的坏棋)到底要怎么判断 毕竟终究人类本来累积的认知也可能离global optimum有段距离
作者: Tkuei (it's me)   2016-03-12 11:47:00
ML你不告诉他的他不会知道,但是deep确有可能自己找出来
楼主: fallcolor (秋天走了)   2016-03-12 11:48:00
ML可以阿 只是过去ML模型没这么复杂 泛化能力就差而且这样说很奇怪 deep本来就是ML的一种
作者: Tkuei (it's me)   2016-03-12 11:48:00
可是ML还是base on人设计给电脑的rule
作者: Tkuei (it's me)   2016-03-12 11:49:00
但是deep是让电脑自己把rule找出来喔,我应该是说传统的ML跟deep L至少就我的认知,传统的ML我们把棋谱那些“劣手”当作劣手喂给电脑去train的话,那test时的时候就不会把劣手当好手但是deep我们不会告诉他好坏,所以好坏是电脑子自己找到的因此原本在棋界公认不好的下法,却被AlphaGo翻盘
作者: darkseer   2016-03-12 11:59:00
请问楼上,可是AlphaGo的paper里看起来光用SL policynetwork和它的变体就很强了,我的理解这边是单纯学习就很强了,这个有什么特别的解释吗?
作者: AmibaGelos (Amiba Gelos)   2016-03-12 12:02:00
policy不能用RL,因为RL会有破台后便固定玩法的问题
作者: aaaba (小强)   2016-03-12 12:03:00
推认真讨论。我把我的说法多阐明一下,干净的资料使得分类器的boundary可以划分的很好,如此一来,人类棋手若非因为细算的理由,而在正手旁一路落子,“极大的机会”是一招恶
作者: AmibaGelos (Amiba Gelos)   2016-03-12 12:03:00
或著说他会很容易掉到local minimal上,比较合理的还是
作者: aaaba (小强)   2016-03-12 12:03:00
手,而非引发bug的噪声。另外,就统计而言,deep net只要比人更靠近另一个更好的local opt就足够胜过人类,加上mcts的架构,大大补足了non cvx的问题。
作者: Tkuei (it's me)   2016-03-12 12:24:00
抱歉小弟并非ML专精,只是因为研究需要略懂皮毛,用词失准还请多多指正。虽然说影像动辄5000*3000,棋盘只有19*19,但是拿来相比未必适合,因为点与点之间关系的复杂性是不能相比的
作者: fool5566 (愚者56)   2016-03-12 12:24:00
可以借这篇问一下吗 alphago的用时策略是固定的吗
作者: AmibaGelos (Amiba Gelos)   2016-03-12 12:32:00
用时估算,fast policy等关键点google肯定是不会讲的大家讲的神乎其技的DCNN反而是最简单的部分@@
作者: aaaba (小强)   2016-03-12 12:36:00
认同楼上,那边很吃domain knowledge
作者: birdy590 (Birdy)   2016-03-12 12:36:00
他又不是纯靠nn 干扰他只能造成mcts效率降低而且资料是操作人员在喂 想靠污染不切实际
作者: aaaba (小强)   2016-03-12 12:38:00
认同楼上
作者: birdy590 (Birdy)   2016-03-12 12:57:00
真正决定落子的是Mcts 里面用的网络目标只是要比乱数好Nn不准只是效率差点 还没法控制
作者: AmibaGelos (Amiba Gelos)   2016-03-12 13:00:00
只要比RN好OTZ,从RL Value到SL policy就从6d升到8d了
楼主: fallcolor (秋天走了)   2016-03-12 13:03:00
说的是 但贴那个link就是要说明有策略可以让NN效率变差MCTS如何破解的部分就需要其他专家补充了
作者: drajan (EasoN)   2016-03-12 14:01:00
想不到在围棋版可以看到关于ML/AI的讨论@@ 受益良多
作者: bpsk (kaoyu)   2016-03-12 15:22:00
RBM?

Links booklink

Contact Us: admin [ a t ] ucptt.com