Re: [好文推荐] 这两盘棋 没人会比李世石做得好

楼主: reinhert (史丹佛的银色子弹)   2016-03-11 23:55:52
※ 引述《nnlisalive (nnlisalive)》之铭言:
: 我觉得要从程式码方面下手了
: 首先就是阿发狗所谓的"胜率"是怎计算出来的?
: 不外乎用盘面上所得到的资讯转换成数据
: 再代入胜率函数得到每一点的胜率
: 那这个函数适用于任何盘面吗? 没有任何逻辑漏洞和盲点?
: 算出来的胜率没有误差? 如果有个点胜率是70%
: 具体来说应该是下了这个点跑到结束N次 有0.7*N次会赢
: 但明明就还没下完 也不知道对方会怎下
: 所以只要能骗过电脑 让他一直下到误判胜率的棋
其实看很多人对AlphaGo算法的看法好像还在以前
把作法写死在程式里跑Funciton的想法
所以才会说找Bug和骗电脑之类的
这就让我想到昨天第二局腾讯那个转播,较前面两个解说来宾
(名字我就不晓得了,毕竟个人也没啥围棋经验)
右边那位来宾也是停留在改Code,修原始码之类的旧式理解
左边那位就对AlphaGo的作法,神经网络的东西理解很深
以下是个人粗浅的理解,毕竟以前没深入研究过NN且Nature那篇也还没看完
AlphaGo并不是把规则写在Code里面,而是把盘面的资料丢到一个
Model中,在Model中经过计算后吐出来一个结果来
以Policy Network来说就是吐出各点的下子可能机率
而Value Network就是该盘面的可能胜率
也就是像这样:
Input Model Output
盘面上各点的资料
共19*19 = 361维
[1, 2, ..., 361] -> Policy Network -> 各点下子可能机率
Value Network -> 盘面的可能值
真正重要的是Model中的计算参数(而且可能有非常多个)
才是决定这么Model好坏的关键
当然这个关键是不用人手去调的,而是以过去的资料去对Model进行"训练"
也就是参数的调整,让这个网络能越来越符合我们要的结果
就是在之前讨论或文章中作SL(Supervisor Learning)的部分
但这要有过去的资料才能作到,因此AlphaGo还多了一步
是在过去的资料上继续自己创造资料与结果
也就是RL(Reinforcement Learning),来不断的自我训练
不断的加强自身强度
所以常常看到有人说找Bug和对原始码下手,但其实这是不对的
这个计算系统是随时随地在变动的
如果有一般人所谓的Bug(系统实作上的问题)也早就找出来了
要也是要对Model和系统本身的弱点来下手,但NN会在不断的训练逐渐趋近最佳解
所以要"骗"或找Bug是非常困难的甚至没意义的
作者: ginstein (迈向学术之路)   2016-03-12 00:00:00
AlphaGo 没有弱点了?找出下法的弱点不能称为找bug?
作者: nnlisalive (nnlisalive)   2016-03-12 00:02:00
我觉得输出结果不是设计师所预期的就是BUG了
作者: tookouw (乡民)   2016-03-12 00:08:00
在训练模式中,model本身是可以回馈自己修改自己的函数所以如果都输入某人的棋谱,这函式就会有某人的风格
作者: tlm (Netherlands)   2016-03-12 00:11:00
输出结果当然不见得是设计师预期 不然AG就只有黄世杰的棋力
作者: arnold3 (no)   2016-03-12 00:11:00
电脑的计算能力跟心理素质确定比人类强 其他地方可未必
作者: tookouw (乡民)   2016-03-12 00:12:00
AG在这个回馈机制中不断的修正自己的函数群 就会变"强"
作者: ddavid (谎言接线生)   2016-03-12 00:18:00
要统称为bug也不是不可,但这个案例的问题在于你很难评估这所谓的“bug”到底是好的或坏的过去我们都说bug是坏东西要debug,但这类算法的输出原本就不是原设计者可以预期的,因此不管是人想不到的好手或是真的烂下法都会因此被你统称为bug,结果就是即便你抓到了这些“bug”也会因为你无法分辨是好bug还是坏bug而仍然难以利用
作者: blackwindy (黑色的风)   2016-03-12 00:29:00
简单来说 你所谓的bug只会发生在code本身有没有写错这种架构下 逻辑是不会出错的 而且现在已经验证可以打因为他的架构太复杂 输出具有不可预测性只能直接上线测看看到底有没有用换个说法 做这东西就是拿来下棋 强度? 不知道
作者: paperbattle (?)   2016-03-12 00:51:00
RL在这十几年来 常常做为训练board game AI的手段
作者: saranggeyo (saranggeyo)   2016-03-12 01:01:00
左边那个博士说的什么啊﹐还alphago自动改程序﹖右边的俞斌写过围棋程式的﹐左边不太会解释啊

Links booklink

Contact Us: admin [ a t ] ucptt.com