http://www.slideshare.net/ShaneSeungwhanMoon/how-alphago-works
Shou-de Lin Facebook上面最新的文章(一直判定广告网站不能贴)
这里有讲alphago的怎么运作的
"反而利用过去学到的policy 结合了蒙地卡罗树状搜寻(MCTS)的方法找出最好棋步"
"必须要能够走出前所未见的局面,降低它对于盘面估测的准确度才会有机会"
可以解释为什么在李九段下出神之一手后就开始秀逗了
alphago利用过去棋谱和不断自我训练得一个函数
加上蒙地卡罗树状搜寻 来模拟最好的棋步
因为这神之一步是alphago在这几千万局中完全没模拟到的一步
导致模拟全部重来所以之后几步都下出低级失误
弱点非常清楚下出alphago没想出的一步
不过这一步的机会只能用一次
但是因为alphgo能一直不断学习
这棋谱加入数据库后同样的手法就没用了
所以第五局除非李九段可以下出和今天一样的神之一手不然没有机会赢
问题是根本不知道alphago哪些是它下过、哪些是它没下过的