楼主:
turing (涂妮)
2016-03-13 21:31:00先简介AlphaGo的原理,
AlphaGo有两个主要的分析网络,
1. 策略网络 policy network
在当前的局面分析可能下的棋点,并计算出现的机率。
例如:第二局的37手的五路肩冲的机率是万分之一。
机率高的会分配较多的资源,算的比较深。
2. 值网络 value network
给定一盘面,计算出黑白获胜的机率。
另外,它不是每步棋重新计算。
在对手下棋之后,符合的分枝之前计算过的结果会保留继续用。
而在对手思考的同时,他的每个分枝也继续地再算下去。
再看今天第78手后,发生什么事情?
明显这个“神之一手”不在其策略网络之前估计的棋步中。
所以,之前所有值网络所估计的胜率全部报废。
AlphaGo必需全部重新计算胜率,而需要约五步的时间(到第79~87步)
值网络才回复正常。
另外,由前面几局知道,当它胜定时,有可能会乱下而损棋,
原因是胜率都差不多。而今天知道,当它败定,也会乱下,
原因同样是胜率差不多。所以AlphaGo会有兵败如山倒的缺陷。
真的要测试AlphaGo的Bug,需要的可能是“屁之一手”,
在大约80手左右,它已经累计了大量的计算之后,
下一手明显它不曾考虑过的棋,即使它非常地差。
再看看它是否会乱掉。
这之前有人提过了 你下差棋 alphaGo 不会理你
作者:
bxxl (bool)
2016-03-13 21:37:00如果这样是个满严重的bug, 照理来说重算只要拉长时间就好了
记得团队是说阿发认为是优势耶 应该是有算但算错吧 后来反正胜率高下ㄧ些损的 才发现估错
作者: raku (raku) 2016-03-13 21:45:00
这就算成立,只要多下个几千万盘或是硬件进步就克服缺点了
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2016-03-13 21:51:00不成 这个屁之一手还不能太屁 如果不是胜负难定的一手
作者:
Uizmp (黑袍法师)
2016-03-13 21:51:00屁之一手没用, 要这种让他胜率狂掉的才会有用
作者:
moonlind (又多了敷脸卡跟觅食卡了~)
2016-03-13 21:52:00他可能不理你 继续算他刚刚算的 然后五步内妳自己大亏你也说了 他重算要五步的时间 如果你下得太屁 在他发现问题前 五步内因为这个屁自己亏了多少?
作者:
Uizmp (黑袍法师)
2016-03-13 21:53:00屁之一手没有办法打乱他的两个决策网络
作者:
birdy590 (Birdy)
2016-03-13 21:54:00触发条件应该是"评价应该大幅下降 但DCNN评估错误"
作者:
RS44 (黑色幽默)
2016-03-13 22:19:00所以还是要靠暴力破解 考虑所有的组合才能避免 但有生之年..
穷举哦,全球前500名的超级电脑一起算,也要算数年吧
作者:
Uizmp (黑袍法师)
2016-03-13 22:32:00就算是穷举 也不能保证胜利啊
全地球的电脑加起来算,算到太阳系毁灭了都还没算完穷举就是保证胜利,像五子棋只要电脑持黑就是必胜
作者:
Uizmp (黑袍法师)
2016-03-13 23:23:00等等, 那持白呢?穷举只是把所有的可能算出来而已吧?
作者:
liaon98 (liaon98)
2016-03-13 23:33:00啊所有的可能都算出来了 就自然走哪步必胜啊...
作者:
Uizmp (黑袍法师)
2016-03-13 23:51:00问题是也要把对手逼往必胜那条路上啊, 又不是只有一个人下
作者:
liaon98 (liaon98)
2016-03-13 23:55:00你下在最好的地方 对方也有个最好的地方若对方不是下在这个最好的地方 表示对方亏了那么可以下到必胜的路只会更多 不会变少