Re: [闲聊] 有关"深度学习"的文章

楼主: chz (稻草人骑士)   2016-03-16 13:28:35
※ 引述《mathbug (天堂的定义)》之铭言:
: 个人觉得有两个方向可能可以试试 让AlphaGo更接近完美
: A. 训练棋谱先分类 如我之前的文章所说明 #1MvdF35h
: (避开胜负手/无理手翻盘的棋谱 训练时只采用完胜的棋谱)
在Alpha Go已经训练完棋谱部份都在跑自对战的现在
这样相当于要重新建构整个类神经网络。
个人觉得比较接近其他人/团体要师法Alpha Go可以尝试的方法
否则要DeepMind重建整个类神经网络然后重新训练的成本太高了。
(只有最初Supervised Learning有用到棋谱,
后面Reinforcement Learning都是自对战)
: B. 将评价网络中的胜率最高着点改为围地目数最多之著点
: 当然可以两种都记录下来
: 根据以上的第2点,比方说,模拟10000盘,某a点围地最多,它的胜率也应该是
: 胜率最高的几个点之一,这绝对是正相关的两种参数
: (若不是,系统的不稳定性就出来了(如第四盘的鬼手出现))
你可能误会value network的使用方式了?
value network回传的是不是一个着手。
value network回传的是一个值,是对于落子后盘面的胜率估计
也就是输入是一个盘面,输出是估计胜率
然后在MCTS中,一个叶节点的值是 (1-\lambda) 模拟值 + \lambda 估计值
因此value network是用于修正MCTS中random game的精准度的。
相当于估计直说这手的胜率是70%,
模拟的部份帮忙看是比70%高或低多少。
所以如果一开始value network的估计值差很远,
对同一个点做再多模拟也救不回来,因为他是一个线性公式,与模拟次数无关。
估计值总是会提供一定的影响力。
至于把MCTS中的分数全部改为目数/点数呢?
这个基本上在MCTS蓬勃发展时代(2006-2012)大家就试过了
结论是用目数取代胜率MCTS的收敛比较慢。
因为获胜目数的平均值意义太低,
90盘输1目10盘赢10目,和45盘输1目55盘赢1目
平均都是+0.1,但是正常都会怀疑+10的那10盘棋
究竟是绝妙好棋,还是对手应错,别忘了,这些都是random game的结果。
另外,陈钟诚教授对AlphaGo的理解是有问题的,
建议原Po去读Nature的原始论文比较不会被误导。
作者: aaaba (小强)   2016-03-16 13:33:00
大胆,math大是在美国读过书,怎么会不知道要看原始论文呢
作者: bbbtri (cycling)   2016-03-16 13:34:00
很好奇..输入的只是一个盘面的一手的话(避免overfitting?)那总共要累积多少估计胜率的值 才足够让AG下一步棋 @ @?
作者: aaaba (小强)   2016-03-16 13:52:00
补充一点,改成目数的话,NN的supervised learning也不好做中押的棋局都要用某种方式补下完后数子才有数据可学例如,由现在的狗继续下完。但总之ai的目标是赢棋,训练的
楼主: chz (稻草人骑士)   2016-03-16 13:58:00
回2F,基本上后面都是靠MCTS往下展开来判断的。
作者: aaaba (小强)   2016-03-16 13:59:00
时候目标却不是赢棋,反映在胜率的数字应该不会有提升
楼主: chz (稻草人骑士)   2016-03-16 14:00:00
至于要有多少胜率才会下出下一手应该是机密了。谢谢1F补充,我只对于game的部份比较熟。
作者: MicroB ( )   2016-03-16 14:04:00
秀哉:这步不错(70%up) 徒子徒孙们去下下看有没有问题门徒:没问题的多秀哉:清源老弟, 你看我这招如何? 呵呵
作者: aaaba (小强)   2016-03-16 14:08:00
还好秀哉不会崩溃乱挖送吃
作者: MicroB ( )   2016-03-16 14:16:00
那是因为她没遇到神之一手 XD
作者: aegis43210 (宇宙)   2016-03-16 15:06:00
秀哉遇到神之一手,可以挂著再去问徒弟,alphaGO不行
作者: MicroB ( )   2016-03-16 15:14:00
AG问啦 徒弟算错她也没办法啊 XD
作者: mathbug (天堂的定义)   2016-03-16 15:19:00
你的90盘输1目 vs 40盘输10目的例子刚好可以对照胜率法显示这个点/盘面的不稳定性
楼主: chz (稻草人骑士)   2016-03-16 16:02:00
所以,既然胜率比较稳定,用目数的意义不大阿。
作者: mathbug (天堂的定义)   2016-03-16 17:56:00
我的意思是 应该加一个稳定系数 这两种差异性就是个观察稳定度不好一定是盘面复杂(如第四盘鬼手)可多花一些资源

Links booklink

Contact Us: admin [ a t ] ucptt.com