AlphaGo 的官子说实在有点... 怪, 对于高手而言甚至会得到弱的评价.
不过这很可能是因为它知道怎么赢, 不知道怎么赢多一点的问题.
想像一下 AlphaGo 接近终盘已经赢了十目左右的情况.
如果它可以算清, 很多走法的胜率都会是 100%
可是它不知道怎么收官能赢最多 (职业棋士眼中的最佳手顺)
随便挑一条 100% 走的情况, 赢半目到十目左右都有可能.
如果它真的有算清 (再次强调 "算清") 其实不影响输赢.
只是会给人类有种错觉, 官子下这么烂? 人类多下几手有机会翻盘.
但下到最后会发现... 人类怎么收都输一些.
要看出 AlphaGo 收官的实力, 可能要终盘前小输几目.
这时候好手顺的胜率才看得出相对较高, 往胜率高的走自然比较接近最佳手顺.
要改良 AlphaGo 优势下随便收官的问题:
判断胜率的 value network 根据固定贴目而来.
这也是为什么 AlphaGo 原本设定中国制 7.5 目, 不方便突然改成韩国制 6.5 目.
如果真的改成韩国制而这一版的 AlphaGo 又持白,
好死不死走上胜率 100% 但只赢 0.5 目的那条路, 实际上是输 0.5 目.
value network 应该可以同时训练出不同贴目设定下判断输赢的版本.
类似佐为对战塔矢行洋时, 自认为要多赢十几目才算赢.
那么在有多条路径回报胜率 100% 时 (通常是官子阶段优势局面)
换成问多贴一点目的 value network, 本来 100% 的路径就会下降看出谁高谁低.
也就是说本来赢 0.5 目算赢, 突然跟它说得多赢几目才算赢, 它就会认真收求胜.
如此 AlphaGo 应该有能力在优势局面下收出比较正确的官子赢最多.
而且大官子阶段多赚一点, 没算清的时候也比较不会被翻盘.