※ 引述《turing (涂妮)》之铭言:
: 再看今天第78手后,发生什么事情?
: 明显这个“神之一手”不在其策略网络之前估计的棋步中。
: 所以,之前所有值网络所估计的胜率全部报废。
: AlphaGo必需全部重新计算胜率,而需要约五步的时间(到第79~87步)
: 值网络才回复正常。
我的看法是 Policy Network 里面有给过神之一手 (白 78)
AlphaGo 也算过相关变化, 但是算的不够深, 或者说 Value Network 太晚估对.
假设 AlphaGo 搜寻深度固定 8 层 (简化说明, 实际上不是如此)
AlphaGo 79 手: 我算过 79~86 手的变化了, 86 手的 value network 有 70%
我可以安心下 79.
AlphaGo 81 手: 81 手 value network 报 70%
让我算一下 81~88 手为止的变化
WTF! 87 手的 value network 掉到 40% ?
可是 81 手的胜率 40% (被 87 手降低) 还是最高, 只好继续下 81.
AlphaGo 83 手: 83 手 value network 报 70%
83 手的胜率 40% 还是最高, 只好继续下 83.
AlphaGo 83 手: 85 手 value network 报 70%
85 手的胜率 40% 还是最高, 只好继续下 85.
AlphaGo 87 手: 87 手的 value network 报 40%
我第 81 手时知道我错了, 可是 81 手前下错已经走上单行道.
想避开神之一手
AlphaGo 要能搜寻的更深提早知道 87 手的盘面很劣 (但要花很多运算时间)
或是 Value Network 早一点报对, 比如说第 80 手的盘面就知道很劣.
拉长搜寻时间不太可行 (今天都快用光时间了)
把 Value Network 训练的更准应该是 AlphaGo 主要的目标.