先简介AlphaGo的原理,
AlphaGo有两个主要的分析网络,
1. 策略网络 policy network
在当前的局面分析可能下的棋点,并计算出现的机率。
例如:第二局的37手的五路肩冲的机率是万分之一。
机率高的会分配较多的资源,算的比较深。
2. 值网络 value network
给定一盘面,计算出黑白获胜的机率。
另外,它不是每步棋重新计算。
在对手下棋之后,符合的分枝之前计算过的结果会保留继续用。
而在对手思考的同时,他的每个分枝也继续地再算下去。
再看今天第78手后,发生什么事情?
明显这个“神之一手”不在其策略网络之前估计的棋步中。
所以,之前所有值网络所估计的胜率全部报废。
AlphaGo必需全部重新计算胜率,而需要约五步的时间(到第79~87步)
值网络才回复正常。
另外,由前面几局知道,当它胜定时,有可能会乱下而损棋,
原因是胜率都差不多。而今天知道,当它败定,也会乱下,
原因同样是胜率差不多。所以AlphaGo会有兵败如山倒的缺陷。
真的要测试AlphaGo的Bug,需要的可能是“屁之一手”,
在大约80手左右,它已经累计了大量的计算之后,
下一手明显它不曾考虑过的棋,即使它非常地差。
再看看它是否会乱掉。