Re: [闲聊] 有关"深度学习"的文章

楼主: mathbug (天堂的定义)   2016-03-16 11:24:14
※ 引述《OxfordGOD (牛津神)》之铭言:
: http://www.bnext.com.tw/article/view/id/38923
: 目前我在网络上看到这篇介绍的比较详细
第一次粗略地看完这一篇文章 结合这几天来的思考 我想提出一些看法
简略地先说说 AlphaGo 的三大手法:(有错请指正)
1. 策略网络 (根据大量棋谱训练 监督式学习 提出(双方)最有可能的落子点)
https://goo.gl/bONQ6T
2. 评价网络 (根据两台能力相同的AlphaGo(随机多次)下到完,
推估落子点胜率,选胜率高者。由于两台机器能力一样,
此机率跟落点有关,跟对手是谁或能力无关)
https://goo.gl/XWfWnv
3. 蒙地卡罗搜寻树 (混合1与2并进行简化动作,不需要每一点或每一个分支进行分析)
____________________________________________________________
也请参考 http://www.slideshare.net/ccckmit/alphago-59482042
(用十分钟了解《AlphaGo的几个可能弱点》)
____________________________________________________________
****** 以下为我的看法 *********
_______________________________
个人觉得有两个方向可能可以试试 让AlphaGo更接近完美
A. 训练棋谱先分类 如我之前的文章所说明 #1MvdF35h
(避开胜负手/无理手翻盘的棋谱 训练时只采用完胜的棋谱)
B. 将评价网络中的胜率最高着点改为围地目数最多之著点
当然可以两种都记录下来
根据以上的第2点,比方说,模拟10000盘,某a点围地最多,它的胜率也应该是
胜率最高的几个点之一,这绝对是正相关的两种参数
(若不是,系统的不稳定性就出来了(如第四盘的鬼手出现))
作者: aaaba (小强)   2016-03-16 11:26:00
来人啊,把千万盘棋谱表上围地最大的著点等等,你到底是在说评价网络还是策略网络表->标原来的评价网络也是没有胜率最高着点这种输出
作者: zeat (L.)   2016-03-16 11:39:00
有些棋是专门破空或杀棋的,这跟围地就无关了吧
作者: jackypan1989 (杰奇)   2016-03-16 11:53:00
不如说是相对目数增幅
作者: aaaba (小强)   2016-03-16 13:25:00
你可以自己定义你的评价网络,但不要说是alphaGo的可以吗?

Links booklink

Contact Us: admin [ a t ] ucptt.com