※ 引述《OxfordGOD (牛津神)》之铭言:
: http://www.bnext.com.tw/article/view/id/38923
: 目前我在网络上看到这篇介绍的比较详细
第一次粗略地看完这一篇文章 结合这几天来的思考 我想提出一些看法
简略地先说说 AlphaGo 的三大手法:(有错请指正)
1. 策略网络 (根据大量棋谱训练 监督式学习 提出(双方)最有可能的落子点)
https://goo.gl/bONQ6T
2. 评价网络 (根据两台能力相同的AlphaGo(随机多次)下到完,
推估落子点胜率,选胜率高者。由于两台机器能力一样,
此机率跟落点有关,跟对手是谁或能力无关)
https://goo.gl/XWfWnv
3. 蒙地卡罗搜寻树 (混合1与2并进行简化动作,不需要每一点或每一个分支进行分析)
____________________________________________________________
也请参考 http://www.slideshare.net/ccckmit/alphago-59482042
(用十分钟了解《AlphaGo的几个可能弱点》)
____________________________________________________________
****** 以下为我的看法 *********
_______________________________
个人觉得有两个方向可能可以试试 让AlphaGo更接近完美
A. 训练棋谱先分类 如我之前的文章所说明 #1MvdF35h
(避开胜负手/无理手翻盘的棋谱 训练时只采用完胜的棋谱)
B. 将评价网络中的胜率最高着点改为围地目数最多之著点
当然可以两种都记录下来
根据以上的第2点,比方说,模拟10000盘,某a点围地最多,它的胜率也应该是
胜率最高的几个点之一,这绝对是正相关的两种参数
(若不是,系统的不稳定性就出来了(如第四盘的鬼手出现))