Re: [心得] Alphago的弱点 yamiyodare PTT批踢踢实业坊

Re: [心得] Alphago的弱点

楼主: yamiyodare (shantotto) 2016-03-13 22:21:32

※ 引述《turing (涂妮)》之铭言：
: 再看今天第78手后，发生什么事情？
: 明显这个“神之一手”不在其策略网络之前估计的棋步中。
: 所以，之前所有值网络所估计的胜率全部报废。
: AlphaGo必需全部重新计算胜率，而需要约五步的时间(到第79~87步)
: 值网络才回复正常。
我的看法是 Policy Network 里面有给过神之一手 (白 78)
AlphaGo 也算过相关变化, 但是算的不够深, 或者说 Value Network 太晚估对.
假设 AlphaGo 搜寻深度固定 8 层 (简化说明, 实际上不是如此)
AlphaGo 79 手: 我算过 79~86 手的变化了, 86 手的 value network 有 70%
我可以安心下 79.
AlphaGo 81 手: 81 手 value network 报 70%
让我算一下 81~88 手为止的变化
WTF! 87 手的 value network 掉到 40% ?
可是 81 手的胜率 40% (被 87 手降低) 还是最高, 只好继续下 81.
AlphaGo 83 手: 83 手 value network 报 70%
83 手的胜率 40% 还是最高, 只好继续下 83.
AlphaGo 83 手: 85 手 value network 报 70%
85 手的胜率 40% 还是最高, 只好继续下 85.
AlphaGo 87 手: 87 手的 value network 报 40%
我第 81 手时知道我错了, 可是 81 手前下错已经走上单行道.
想避开神之一手
AlphaGo 要能搜寻的更深提早知道 87 手的盘面很劣 (但要花很多运算时间)
或是 Value Network 早一点报对, 比如说第 80 手的盘面就知道很劣.
拉长搜寻时间不太可行 (今天都快用光时间了)
把 Value Network 训练的更准应该是 AlphaGo 主要的目标.

作者: ilw4e (可以吃吗？) 2016-03-13 22:23:00

可是照理说minimax不是要排除吗?:D

作者: SuperUp ((￣▽￣＃)﹏﹏) 2016-03-13 22:24:00

自爆的那二手也是胜率最高吗?

楼主: yamiyodare (shantotto) 2016-03-13 22:27:00

算的不够深所以没排除

作者: ShenMue (莎木) 2016-03-13 22:28:00

如果到了2040年左右？能再多搜个几层的话棋士还能对抗吗

楼主: yamiyodare (shantotto) 2016-03-13 22:28:00

它会下它认为胜率最高的, 只是人类不一定同意.

作者: aaaba (小强) 2016-03-13 22:28:00

也有可能是mcts里的rollout policy太烂，分支就被剪掉了

作者: birdy590 (Birdy) 2016-03-13 22:28:00

实际上计算是 MCTS, 评估网络认为没那么重要的就不会算那么深(时间够或计算资源多还是可能会算到但不保证)

作者: arcworld (人生究竟是什么呢？) 2016-03-13 22:29:00

可是是因为AG下了69才会有78的发生

作者: Uizmp (黑袍法师) 2016-03-13 22:30:00

自爆的时候可能决策系统给出的胜率都很低了

作者: pkyosx (Insomnia) 2016-03-13 22:30:00

minmax 是看他深度决定的有可能 min 在更深的地方

作者: birdy590 (Birdy) 2016-03-13 22:31:00

应该反过来讲它在计算 69 的时候是看不到 78 的

作者: arcworld (人生究竟是什么呢？) 2016-03-13 22:31:00

所以，实际上AG在评估69要下哪边时就做错决定了...

作者: pkyosx (Insomnia) 2016-03-13 22:31:00

等到他真的遇到了就 GG 了

作者: aegis43210 (宇宙) 2016-03-13 22:31:00

有量子电脑就能试试穷举了呀，但还久

作者: pkyosx (Insomnia) 2016-03-13 22:37:00

这个局部的洞估计两边都很难在够早的地方看到就是运气

作者: countingtls (北海牧羊人) 2016-03-13 22:45:00

还在minmax, 通通回去看完论文再来推文

作者: Rinehot 2016-03-13 22:47:00

不是运气他扳右边二子头其实非必要

作者: darkseer 2016-03-14 03:21:00

不懂。如果他早知道正常下87手胜率很低，79手就不会觉得胜率高吧? 我不懂MCTS，但我以为这里收敛到minimax很快

作者: jasonchangki (阿特拉斯耸耸肩) 2016-03-14 05:18:00

2040有量子电脑出现的话应该就穷举了

作者: darkseer 2016-03-14 07:53:00

感谢原po XD 想来我本来看错了，不过这跟Demis说法不符?

楼主: yamiyodare (shantotto) 2016-03-14 07:53:00

修改一下比较清楚

作者: darkseer 2016-03-14 07:54:00

就是Demis说AlphaGo的回报胜率到87才降

楼主: yamiyodare (shantotto) 2016-03-14 07:55:00

Demis 可能透过 AlphaGo 知道 79 手下别处没那么差value network 的确是到 87 手才降的搜寻树回报的胜率是后续几手 value network 决定Demis 指的是 value network 到 87 手才知道劣太晚了

作者: darkseer 2016-03-14 07:58:00

我不会这样解读Demis的说法XD 不过说不定是你说的这样等等，你说的真是太有道理了!!! m(_ _)m感谢推这篇XD，我觉得对没学过算法的人这篇最好，你没有讨论rollout policy，不过Demis意思应该就是说value network才是问题所在，这样好像很难分析...

继续阅读

[闲聊] 小李还是下得很糟糕兼论阿法狗弱点sky0302 [问题] 请问为什么中国韩国棋士不去日本发展?RomaneeConti Re: [心得] 围棋AI AlphaGo 之我见fallcolor Re: [讨论] 神之一手存不存在?pkyosx [心得] AlphaGo常见问题总整理Roger0123 Re: [心得] Alphago的弱点turing [讨论] 神之一手存不存在?lolylolyosu Re: [讨论] 李世石对 AlphaGo 第四局 78 手解说(找到bug)wnglon [讨论] 李世石 VS AlphaGo 第四局看法wukevinboy [新闻] 柯洁：李证电脑不完美盼约战不怕对手进步zkow