※ 引述《Dialysis (Chiquitia)》之铭言:
: 不好意思,有个问题想了好一会儿,实在是不确定答案,
: 想来也只有这个板最合适问。
: 倘若重复alphago第一盘和李世石的对奕内容,
: 那么,alphago还会下出一样的步数吗?
: 我的直觉告诉我,应该是不一样,
: 但,到底随机的机转及其比重占了多少,实在是不懂如何去思考,
: 请问有人能释疑?
围棋的一个盘面其实有八种变形, 对称 2 种乘上旋转 0/90/180/270 度 4 种.
完全相同的局面, 只是观棋的角度不同.
然而把这些盘面变形丢进 Policy/Value Network 得到的值不会完全相同.
把类神经网络设计成遇到变形可以吐出相同的值并不是办不到,
但会有一些副作用, 像是效果较差或是鉴别不出特殊的对称棋型.
一个解决的方法是把八种变形都丢进去算取平均, 棋力会更高一点但速度慢很多.
所以 AlphaGo 实战时是算到某个盘面时随机取一种变形,
再次算到时再取另一种变形平均, 一个盘面的估算最多是八种变形的平均.
如果这里的随机是真随机而非固定顺序,
那么同样的盘面还是会有微妙的差异影响后面的应手.
不过我个人认为... 实战用八倍的 GPU 下去解决比较快, 虽然很耗电 :p