※ 引述《mathbug (天堂的定义)》之铭言:
: 个人觉得有两个方向可能可以试试 让AlphaGo更接近完美
: A. 训练棋谱先分类 如我之前的文章所说明 #1MvdF35h
: (避开胜负手/无理手翻盘的棋谱 训练时只采用完胜的棋谱)
在Alpha Go已经训练完棋谱部份都在跑自对战的现在
这样相当于要重新建构整个类神经网络。
个人觉得比较接近其他人/团体要师法Alpha Go可以尝试的方法
否则要DeepMind重建整个类神经网络然后重新训练的成本太高了。
(只有最初Supervised Learning有用到棋谱,
后面Reinforcement Learning都是自对战)
: B. 将评价网络中的胜率最高着点改为围地目数最多之著点
: 当然可以两种都记录下来
: 根据以上的第2点,比方说,模拟10000盘,某a点围地最多,它的胜率也应该是
: 胜率最高的几个点之一,这绝对是正相关的两种参数
: (若不是,系统的不稳定性就出来了(如第四盘的鬼手出现))
你可能误会value network的使用方式了?
value network回传的是不是一个着手。
value network回传的是一个值,是对于落子后盘面的胜率估计
也就是输入是一个盘面,输出是估计胜率
然后在MCTS中,一个叶节点的值是 (1-\lambda) 模拟值 + \lambda 估计值
因此value network是用于修正MCTS中random game的精准度的。
相当于估计直说这手的胜率是70%,
模拟的部份帮忙看是比70%高或低多少。
所以如果一开始value network的估计值差很远,
对同一个点做再多模拟也救不回来,因为他是一个线性公式,与模拟次数无关。
估计值总是会提供一定的影响力。
至于把MCTS中的分数全部改为目数/点数呢?
这个基本上在MCTS蓬勃发展时代(2006-2012)大家就试过了
结论是用目数取代胜率MCTS的收敛比较慢。
因为获胜目数的平均值意义太低,
90盘输1目10盘赢10目,和45盘输1目55盘赢1目
平均都是+0.1,但是正常都会怀疑+10的那10盘棋
究竟是绝妙好棋,还是对手应错,别忘了,这些都是random game的结果。
另外,陈钟诚教授对AlphaGo的理解是有问题的,
建议原Po去读Nature的原始论文比较不会被误导。