Re: [心得] Alphago的弱点

楼主: turing (涂妮)   2016-03-13 21:31:00
先简介AlphaGo的原理,
AlphaGo有两个主要的分析网络,
1. 策略网络 policy network
在当前的局面分析可能下的棋点,并计算出现的机率。
例如:第二局的37手的五路肩冲的机率是万分之一。
机率高的会分配较多的资源,算的比较深。
2. 值网络 value network
给定一盘面,计算出黑白获胜的机率。
另外,它不是每步棋重新计算。
在对手下棋之后,符合的分枝之前计算过的结果会保留继续用。
而在对手思考的同时,他的每个分枝也继续地再算下去。
再看今天第78手后,发生什么事情?
明显这个“神之一手”不在其策略网络之前估计的棋步中。
所以,之前所有值网络所估计的胜率全部报废。
AlphaGo必需全部重新计算胜率,而需要约五步的时间(到第79~87步)
值网络才回复正常。
另外,由前面几局知道,当它胜定时,有可能会乱下而损棋,
原因是胜率都差不多。而今天知道,当它败定,也会乱下,
原因同样是胜率差不多。所以AlphaGo会有兵败如山倒的缺陷。
真的要测试AlphaGo的Bug,需要的可能是“屁之一手”,
在大约80手左右,它已经累计了大量的计算之后,
下一手明显它不曾考虑过的棋,即使它非常地差。
再看看它是否会乱掉。
作者: McEliece5566 (无想转生)   2016-03-13 21:35:00
这之前有人提过了 你下差棋 alphaGo 不会理你
作者: bxxl (bool)   2016-03-13 21:37:00
如果这样是个满严重的bug, 照理来说重算只要拉长时间就好了
作者: xyz987123 (odas)   2016-03-13 21:43:00
记得团队是说阿发认为是优势耶 应该是有算但算错吧 后来反正胜率高下ㄧ些损的 才发现估错
作者: raku (raku)   2016-03-13 21:45:00
这就算成立,只要多下个几千万盘或是硬件进步就克服缺点了
作者: moonlind (又多了敷脸卡跟觅食卡了~)   2016-03-13 21:51:00
不成 这个屁之一手还不能太屁 如果不是胜负难定的一手
作者: Uizmp (黑袍法师)   2016-03-13 21:51:00
屁之一手没用, 要这种让他胜率狂掉的才会有用
作者: moonlind (又多了敷脸卡跟觅食卡了~)   2016-03-13 21:52:00
他可能不理你 继续算他刚刚算的 然后五步内妳自己大亏你也说了 他重算要五步的时间 如果你下得太屁 在他发现问题前 五步内因为这个屁自己亏了多少?
作者: Uizmp (黑袍法师)   2016-03-13 21:53:00
屁之一手没有办法打乱他的两个决策网络
作者: birdy590 (Birdy)   2016-03-13 21:54:00
触发条件应该是"评价应该大幅下降 但DCNN评估错误"
作者: RS44 (黑色幽默)   2016-03-13 22:19:00
所以还是要靠暴力破解 考虑所有的组合才能避免 但有生之年..
作者: aegis43210 (宇宙)   2016-03-13 22:29:00
穷举哦,全球前500名的超级电脑一起算,也要算数年吧
作者: Uizmp (黑袍法师)   2016-03-13 22:32:00
就算是穷举 也不能保证胜利啊
作者: indium111 (#ttyhg)   2016-03-13 23:12:00
全地球的电脑加起来算,算到太阳系毁灭了都还没算完穷举就是保证胜利,像五子棋只要电脑持黑就是必胜
作者: Uizmp (黑袍法师)   2016-03-13 23:23:00
等等, 那持白呢?穷举只是把所有的可能算出来而已吧?
作者: liaon98 (liaon98)   2016-03-13 23:33:00
啊所有的可能都算出来了 就自然走哪步必胜啊...
作者: Uizmp (黑袍法师)   2016-03-13 23:51:00
问题是也要把对手逼往必胜那条路上啊, 又不是只有一个人下
作者: liaon98 (liaon98)   2016-03-13 23:55:00
你下在最好的地方 对方也有个最好的地方若对方不是下在这个最好的地方 表示对方亏了那么可以下到必胜的路只会更多 不会变少

Links booklink

Contact Us: admin [ a t ] ucptt.com