Re: [闲聊] 有关"深度学习"的文章 mathbug PTT批踢踢实业坊

Re: [闲聊] 有关"深度学习"的文章

楼主: mathbug (天堂的定义) 2016-03-16 11:24:14

※ 引述《OxfordGOD (牛津神)》之铭言：
: http://www.bnext.com.tw/article/view/id/38923
: 目前我在网络上看到这篇介绍的比较详细
第一次粗略地看完这一篇文章结合这几天来的思考我想提出一些看法
简略地先说说 AlphaGo 的三大手法:(有错请指正)
1. 策略网络 (根据大量棋谱训练监督式学习提出(双方)最有可能的落子点)
https://goo.gl/bONQ6T
2. 评价网络 (根据两台能力相同的AlphaGo(随机多次)下到完，
推估落子点胜率，选胜率高者。由于两台机器能力一样，
此机率跟落点有关，跟对手是谁或能力无关)
https://goo.gl/XWfWnv
3. 蒙地卡罗搜寻树 (混合1与2并进行简化动作，不需要每一点或每一个分支进行分析)
____________________________________________________________
也请参考 http://www.slideshare.net/ccckmit/alphago-59482042
(用十分钟了解《AlphaGo的几个可能弱点》)
____________________________________________________________
****** 以下为我的看法 *********
_______________________________
个人觉得有两个方向可能可以试试让AlphaGo更接近完美
A. 训练棋谱先分类如我之前的文章所说明 #1MvdF35h
(避开胜负手/无理手翻盘的棋谱训练时只采用完胜的棋谱)
B. 将评价网络中的胜率最高着点改为围地目数最多之著点
当然可以两种都记录下来
根据以上的第2点，比方说，模拟10000盘，某a点围地最多，它的胜率也应该是
胜率最高的几个点之一，这绝对是正相关的两种参数
(若不是，系统的不稳定性就出来了(如第四盘的鬼手出现))

作者: aaaba (小强) 2016-03-16 11:26:00

来人啊，把千万盘棋谱表上围地最大的著点等等，你到底是在说评价网络还是策略网络表->标原来的评价网络也是没有胜率最高着点这种输出

作者: zeat (L.) 2016-03-16 11:39:00

有些棋是专门破空或杀棋的，这跟围地就无关了吧

作者: jackypan1989 (杰奇) 2016-03-16 11:53:00

不如说是相对目数增幅

作者: aaaba (小强) 2016-03-16 13:25:00

你可以自己定义你的评价网络，但不要说是alphaGo的可以吗？

继续阅读

[情报] Alpha GO 韩国棋院受封名誉九段winall Re: [情报] GoRatings将AlphaGo评为世界第2paulli [新闻]李世石输了，但这是场古典的胜利 hman1117 Re: [情报] GoRatings将AlphaGo评为世界第2lionheart60 [新闻] AlphaGo窜升世界第2 剑指世界第1棋士leemz [情报] AlphaGo开放式复制计画tlm [心得] AlphaGo vs 李世石五番棋之我见chris90174 [讨论] 儿童围棋阶梯讲义Ommm5566 [心得] 对于 AlphaGo 整体事件的看法wukevinboy [公告] 板规调整staristic