[心得] 改良 AlphaGo 的收官

楼主: yamiyodare (shantotto)   2016-03-15 23:39:10
AlphaGo 的官子说实在有点... 怪, 对于高手而言甚至会得到弱的评价.
不过这很可能是因为它知道怎么赢, 不知道怎么赢多一点的问题.
想像一下 AlphaGo 接近终盘已经赢了十目左右的情况.
如果它可以算清, 很多走法的胜率都会是 100%
可是它不知道怎么收官能赢最多 (职业棋士眼中的最佳手顺)
随便挑一条 100% 走的情况, 赢半目到十目左右都有可能.
如果它真的有算清 (再次强调 "算清") 其实不影响输赢.
只是会给人类有种错觉, 官子下这么烂? 人类多下几手有机会翻盘.
但下到最后会发现... 人类怎么收都输一些.
要看出 AlphaGo 收官的实力, 可能要终盘前小输几目.
这时候好手顺的胜率才看得出相对较高, 往胜率高的走自然比较接近最佳手顺.
要改良 AlphaGo 优势下随便收官的问题:
判断胜率的 value network 根据固定贴目而来.
这也是为什么 AlphaGo 原本设定中国制 7.5 目, 不方便突然改成韩国制 6.5 目.
如果真的改成韩国制而这一版的 AlphaGo 又持白,
好死不死走上胜率 100% 但只赢 0.5 目的那条路, 实际上是输 0.5 目.
value network 应该可以同时训练出不同贴目设定下判断输赢的版本.
类似佐为对战塔矢行洋时, 自认为要多赢十几目才算赢.
那么在有多条路径回报胜率 100% 时 (通常是官子阶段优势局面)
换成问多贴一点目的 value network, 本来 100% 的路径就会下降看出谁高谁低.
也就是说本来赢 0.5 目算赢, 突然跟它说得多赢几目才算赢, 它就会认真收求胜.
如此 AlphaGo 应该有能力在优势局面下收出比较正确的官子赢最多.
而且大官子阶段多赚一点, 没算清的时候也比较不会被翻盘.
作者: ucci (九滴)   2016-03-15 23:55:00
阿发狗是低阶人工智能,才不管大胜
作者: DemonElf (LdsFish)   2016-03-16 00:01:00
现在的Alphago看起来大概都是推估以胜率为优先只是说若以胜率为优先可以下到赢九段的水准,那代表人类对围棋的认知还有很大的突破与成长空间
作者: aaaba (小强)   2016-03-16 00:04:00
努力求胜会下出很多智障手,看第四盘末的狗
作者: goldduck (哥达鸭)   2016-03-16 00:07:00
努力求败狗
楼主: yamiyodare (shantotto)   2016-03-16 00:12:00
第四盘最后几手我一直觉得是 MCTS 的 bug... XD
作者: aaaba (小强)   2016-03-16 00:18:00
让狗有落后的错觉,奇妙的着手就会一直出现,所以还是不要给狗太大的压力才是对他好
作者: imperfectJJT ( )   2016-03-16 00:45:00
14座世界冠军现世界第4有20%机率给2岁狗压力楼上+油
作者: lwei781 (nap til morning?)   2016-03-16 01:02:00
就人类太弱
作者: gary27 (小龟)   2016-03-16 22:13:00
但是柯洁蛮早就算到输了,其他台都一直在点目
作者: xhung (xhung)   2016-03-17 01:22:00
同意这说法 胜率相同的路径 AG似乎就没办法判断哪各较好或许也可再加辅助条件 在胜率一样时才能帮助做选择...

Links booklink

Contact Us: admin [ a t ] ucptt.com