※ 引述《tlchen (台湾加油)》之铭言:
: 从这两个 twitter 来看, AI 在 79 时仍认为自己有 79% 的胜率,
: 直到第 87 手时,才发现胜率骤降。四日棋迷猜测如下:
: AI 估计胜率是经由之后的模拟,白 78 手被认为神手,但或许是之后
: 的巧妙变化是不明显的,所以 AI 无法知道这手有这么大的功用,或
: 是说,无法准确的评估此时的盘面。
value network 是给一个盘面 (361 个输入黑/白/空) 直接告诉你胜率.
基本上盘面几乎不会重复, 所以每一个盘面都是 AlphaGo 或人没看过的.
如果是人, 中盘之后可能会开始点空估计目数.
而估错最可能发生在以为的活棋其实是死棋, 比如说进行中的攻杀.
value network 是喂给它千万盘面, 然后跟它说最后是赢是输训练出来.
遇到新的盘面, value network 根据之前的经验 (神经连结权重) 吐出结果.
如果单纯喂 "361 个输入黑/白/空" 进去训练一定完蛋,
因为这样变成单纯的形态学, 长得像某个样子就以为会输或会赢.
围棋很多时候差一路就差很多 (好手的旁边常是恶手)
所以还会加入 "剩下的气数" "提子数" "手顺" "征子" 等等资讯进去训练.
如果人类认为 79 手的盘势黑棋大劣了, 那么 79 手的盘面 value network
就应该吐胜率陡降的值出来, 而不是等到 87 手的盘面才反应.
如果 AlphaGo 知道 79 手 (甚至更早) 的盘面劣势, 前几手就会避免走上这个局面.
但到 87 手才知道劣势, 这时候已经走上不归路.
AlphaGo 团队回去一定是在研究这种盘面为什么会估错, 以及要如何调整训练方式.
: 这提供了要对付目前这版 AlphaGo 的方法,你最好下一些方法是:接
: 下来对你的最佳解跟次佳解,结果会差很多,这样 AI 用模拟的,就有
: 机会误判。如果你下的棋,接下来的应对,结果都差不了太多,那 AI
: 自然估得准。让它估不准,才会在接下来还没估准前,继续出错。
这真的要拼 AlphaGo 形势判断错误.
但是我们不知道什么样的盘面可以让 AlphaGo 形势判断错误, 劣势误以为优势.
也许是大规模攻杀, 然后又走进特定的棋型 (像小李今天那一手) 让它误判.