从象棋观点看AlphaGO为什么会输

楼主: ctrl (一哥)   2016-03-14 15:55:21
原文恕删...
本文只是要借用一下变化图来讲AlphaGO第四局为什么会输所以连标题都换了敬请见谅
相信大家都觉得很好奇...
为什么AlphaGO前几盘走的像神 昨天却整个像是吃了泻药一样整个烙赛?
坦白讲...当昨天看到白78以后一段 我不但不意外
反而还觉得很熟悉、很感动...像是唤醒了尘封已久的记忆......
作为一个象棋社社员 十几年前我就在和电脑学棋了
从早期将族、象棋水浒传一路玩到后面象棋奇兵、棋天大圣、象棋旋风...
一路玩了差不多快10种棋软左右吧 可以说自己的棋力完全是电脑教出来的
在这边乱入介绍一下象棋界的生态...
作为一个以计算为主的棋种 象棋界很早就承认电脑胜过人脑的事实
从十几年前网络象棋的最高殿堂
作者: birdy590 (Birdy)   2016-03-14 15:57:00
电脑象棋没那么烂好吗
作者: indium111 (#ttyhg)   2016-03-14 16:01:00
只要是用MCTS当基础就不可能去计算获胜的子目
作者: nanlong (懒龙)   2016-03-14 16:05:00
推一下 分享
作者: sck921 (The Fate)   2016-03-14 16:06:00
问题是时间没用完吧
作者: Miule (Miule)   2016-03-14 16:10:00
不是计算能力,而是判断基准的问题这样?
作者: wnglon (冷面笑匠)   2016-03-14 16:14:00
推回五楼的问题 是对的 程式就是以基准的判断执行任何动作
作者: broodworld (john)   2016-03-14 16:16:00
其实人也差不多,新定石不知道下哪也是乱下
作者: wnglon (冷面笑匠)   2016-03-14 16:16:00
目前了解 电脑会用方程式机算胜率
作者: wnglon (冷面笑匠)   2016-03-14 16:17:00
以胜率高低去下每一步 如果胜率都是一样 就随意下胜率高的棋电脑会送头 是因为他想清楚了解逆势
作者: bbbtri (cycling)   2016-03-14 16:20:00
很有意思
作者: wnglon (冷面笑匠)   2016-03-14 16:20:00
把不确定因素排除后 数据会更单纯
作者: wnglon (冷面笑匠)   2016-03-14 16:21:00
这样电脑才能继续下棋
作者: bbbtri (cycling)   2016-03-14 16:21:00
楼上讲得也很有道理!重点是送完还是先手
作者: mathbug (天堂的定义)   2016-03-14 16:32:00
作者: kurc (辛拉面)   2016-03-14 16:32:00
推推 看完很有收获
作者: sfHong (嘿嘿嘿)   2016-03-14 16:37:00
推 好文
作者: bearching (Pandora`s Box)   2016-03-14 16:40:00
作者: Uizmp (黑袍法师)   2016-03-14 16:45:00
推这篇
作者: tomic (细推物理须行乐)   2016-03-14 16:55:00
获益良多 内容很好
作者: DreamFly0811 (飞轮)   2016-03-14 17:04:00
推! 很清楚的解释!XD
作者: milk7054 (莎拉好正)   2016-03-14 17:10:00
阿法狗觉得会输的时候,就会自暴自弃,人的话还会撑到神蹟来临XDD小李运气不错,巧合踩断电脑的理智线XD
作者: upu (傑犽無糖口香糖)   2016-03-14 17:27:00
id满酷的
作者: realroad (晓风‧残月)   2016-03-14 17:49:00
这id让我想起一个签名档
作者: BoyPlunger (少年赌客)   2016-03-14 18:07:00
Ctrl + F4 没用
作者: goldduck (哥达鸭)   2016-03-14 18:18:00
狗狗发疯时还未输 但发疯个几十手后不输也难
作者: kennyluck (Kenny)   2016-03-14 18:27:00
AG 论文有说他们没用 dynamic komi(动态贴目)但是没说为什么 我想是因为这样只会让下棋更像“职棋”但是无法调高胜率......
作者: birdy590 (Birdy)   2016-03-14 18:31:00
因为估值网络训练的时候就是设定贴 7.5 目如果要改用其它规则(例如贴6.5目) 参数要重新训练过因为它整个流程里对于"目数"这件事并没有意识
作者: shishio7 (红心7)   2016-03-14 18:36:00
推这篇
作者: maplefoxs (狐狸怎么叫)   2016-03-14 18:40:00
同意,跟我想的差不多
作者: opparay (阿沛沛)   2016-03-14 18:41:00
但当阿发狗发现劣势的时候不是应该会找寻剩下落子处胜率最大的点吗?
作者: HuangJS (段誉)   2016-03-14 19:13:00
同感
作者: chordate (封侯事在)   2016-03-14 19:48:00
应该不是你说的这样会乱下的情况,应该只存在胜率很高或很低的情况下
作者: ddavid (谎言接线生)   2016-03-14 19:49:00
这一篇的分析其实不错。不一定是AlphaGo发生状况完整的理
作者: chordate (封侯事在)   2016-03-14 19:49:00
目数对胜率的影响才会小到机器分别不出
作者: chordate (封侯事在)   2016-03-14 19:50:00
可是AlphaGo是有认输机制的,胜率小于20%就会认输
作者: SiFox (疝气の噜噜米)   2016-03-14 19:50:00
推推
作者: oldxeng (Someone call for the do)   2016-03-14 20:23:00
完全同意! 很久没下象棋了
作者: imperfectJJT ( )   2016-03-14 20:47:00
分析相当深入 亮点是中文文法怎读起来不太像台人 XD
作者: ekeyson ( 空笑夢)   2016-03-14 20:50:00
作者: wenjia (Ivy)   2016-03-14 21:26:00
电脑象棋确实如此.看到阿法狗79的走法就好像看到象棋软件象棋会努力送子尤其先送对头兵.这问题到现在都一样只是下的人要先有本事把电脑逼到判断劣势的地步
作者: asglay (收收收尾)   2016-03-14 21:40:00
加上这一个胜率相差不大时 以数子或数目作为判别的指标
作者: intointo (樱花)   2016-03-14 23:04:00
写的不错
作者: horseorange (橘小马)   2016-03-15 00:16:00
优文推
作者: moonlind (又多了敷脸卡跟觅食卡了~)   2016-03-15 02:15:00
关于chordate的问题我有一个想法,应该说那些疯手确实是建立在取胜机率最高的位置没错 只是有个前提 那就是李40没有正确对应的话 胜率会是最高。当败象已成 我在搜点时理当找胜率最高的点 可是阿法狗最常面对的就是自己 他自我打了不知几千万局 如果自己在选点时 自己的应手 有60%下错地方 那阿法狗就自以为胜率高的点就在那里 殊不知那是因为对手同样是阿法狗换成人呢?会让你这么好过吗?我想讲的就是 当你叫两个笨蛋对局上千万局?这两个笨蛋是会变高手呢? 还是全然不知自己的盲点在哪?
作者: wukevinboy (wukevinboy)   2016-03-15 02:22:00
我的文引发优文,真的很高兴!
作者: moonlind (又多了敷脸卡跟觅食卡了~)   2016-03-15 02:22:00
还有一个佐证我说法的点 那就是看阿法狗今天对奕的速度你跟我说这种对奕速度半年打3千万局!?肯定不可能也就是说 阿法狗在自我学习时 跟在跟人对战时 评估系统是不同的 跟人打时可以打出五路肩冲 自己跟自己打就不一定行了 为了加速对战 势必调整 或者是用另一套逻辑
作者: birdy590 (Birdy)   2016-03-15 02:32:00
请楼上先去爬一下田渊栋的文章吧...我发现到现在还是很多人不知道三千万局是啥意思
作者: moonlind (又多了敷脸卡跟觅食卡了~)   2016-03-15 08:45:00
#1MvjmKPj这篇田渊栋的文章不正是在说我的猜测吗?节录当篇几个如我所想的段落那为什么估值网络会出问题呢?可能是用于训练估值网络的自学习(self-play)的样本分布有盲点。为了提高样本生生成速度,AlphaGo的自学习样本是通过用两个纯粹的DCNN互搏来生成的(完全没有搜索),而DCNN下出来的棋因为是纯模式识别,一个大问题是死活不确定,经常是在死棋里下子 如果两边都笨了 那盲点就出现了
作者: RedFireE (厚厉害ㄟ红火蚁)   2016-03-15 19:48:00
你是阿发狗开发人员腻

Links booklink

Contact Us: admin [ a t ] ucptt.com