Re: [好文推荐] 这两盘棋没人会比李世石做得好 reinhert PTT批踢踢实业坊

Re: [好文推荐] 这两盘棋没人会比李世石做得好

楼主: reinhert (史丹佛的银色子弹) 2016-03-11 23:55:52

※ 引述《nnlisalive (nnlisalive)》之铭言：
: 我觉得要从程式码方面下手了
: 首先就是阿发狗所谓的"胜率"是怎计算出来的?
: 不外乎用盘面上所得到的资讯转换成数据
: 再代入胜率函数得到每一点的胜率
: 那这个函数适用于任何盘面吗? 没有任何逻辑漏洞和盲点?
: 算出来的胜率没有误差? 如果有个点胜率是70%
: 具体来说应该是下了这个点跑到结束N次有0.7*N次会赢
: 但明明就还没下完也不知道对方会怎下
: 所以只要能骗过电脑让他一直下到误判胜率的棋
其实看很多人对AlphaGo算法的看法好像还在以前
把作法写死在程式里跑Funciton的想法
所以才会说找Bug和骗电脑之类的
这就让我想到昨天第二局腾讯那个转播，较前面两个解说来宾
(名字我就不晓得了，毕竟个人也没啥围棋经验)
右边那位来宾也是停留在改Code，修原始码之类的旧式理解
左边那位就对AlphaGo的作法，神经网络的东西理解很深
以下是个人粗浅的理解，毕竟以前没深入研究过NN且Nature那篇也还没看完
AlphaGo并不是把规则写在Code里面，而是把盘面的资料丢到一个
Model中，在Model中经过计算后吐出来一个结果来
以Policy Network来说就是吐出各点的下子可能机率
而Value Network就是该盘面的可能胜率
也就是像这样:
Input Model Output
盘面上各点的资料
共19*19 = 361维
[1, 2, ..., 361] -> Policy Network -> 各点下子可能机率
Value Network -> 盘面的可能值
真正重要的是Model中的计算参数(而且可能有非常多个)
才是决定这么Model好坏的关键
当然这个关键是不用人手去调的，而是以过去的资料去对Model进行"训练"
也就是参数的调整，让这个网络能越来越符合我们要的结果
就是在之前讨论或文章中作SL(Supervisor Learning)的部分
但这要有过去的资料才能作到，因此AlphaGo还多了一步
是在过去的资料上继续自己创造资料与结果
也就是RL(Reinforcement Learning)，来不断的自我训练
不断的加强自身强度
所以常常看到有人说找Bug和对原始码下手，但其实这是不对的
这个计算系统是随时随地在变动的
如果有一般人所谓的Bug(系统实作上的问题)也早就找出来了
要也是要对Model和系统本身的弱点来下手，但NN会在不断的训练逐渐趋近最佳解
所以要"骗"或找Bug是非常困难的甚至没意义的

作者: ginstein (迈向学术之路) 2016-03-12 00:00:00

AlphaGo 没有弱点了?找出下法的弱点不能称为找bug?

作者: nnlisalive (nnlisalive) 2016-03-12 00:02:00

我觉得输出结果不是设计师所预期的就是BUG了

作者: tookouw (乡民) 2016-03-12 00:08:00

在训练模式中，model本身是可以回馈自己修改自己的函数所以如果都输入某人的棋谱，这函式就会有某人的风格

作者: tlm (Netherlands) 2016-03-12 00:11:00

输出结果当然不见得是设计师预期不然AG就只有黄世杰的棋力

作者: arnold3 (no) 2016-03-12 00:11:00

电脑的计算能力跟心理素质确定比人类强其他地方可未必

作者: tookouw (乡民) 2016-03-12 00:12:00

AG在这个回馈机制中不断的修正自己的函数群就会变"强"

作者: ddavid (谎言接线生) 2016-03-12 00:18:00

要统称为bug也不是不可，但这个案例的问题在于你很难评估这所谓的“bug”到底是好的或坏的过去我们都说bug是坏东西要debug，但这类算法的输出原本就不是原设计者可以预期的，因此不管是人想不到的好手或是真的烂下法都会因此被你统称为bug，结果就是即便你抓到了这些“bug”也会因为你无法分辨是好bug还是坏bug而仍然难以利用

作者: blackwindy (黑色的风) 2016-03-12 00:29:00

简单来说你所谓的bug只会发生在code本身有没有写错这种架构下逻辑是不会出错的而且现在已经验证可以打因为他的架构太复杂输出具有不可预测性只能直接上线测看看到底有没有用换个说法做这东西就是拿来下棋强度? 不知道

作者: paperbattle (?) 2016-03-12 00:51:00

RL在这十几年来常常做为训练board game AI的手段

作者: saranggeyo (saranggeyo) 2016-03-12 01:01:00

左边那个博士说的什么啊﹐还alphago自动改程序﹖右边的俞斌写过围棋程式的﹐左边不太会解释啊

继续阅读

[新闻] 李世石连续两局负于AlphaGo震惊围棋界icespeech [闲聊] 第三战前的小心得wisemisa [问题] 各位板友想问古力的一些讲评ejijojo [讨论] 大家觉得柯洁会接受Alphago的挑战吗？zkow [心得] 叶罡廷七段人机大战两盘棋的心得mariakoutei Re: [问题] 柯洁-李世石wukevinboy [情报] 裁判说话了樊麾：无不许打劫密约notmuchmoney [新闻] 一台胜负机器让围棋遭“末日”？ zkow Re: [好文推荐] 这两盘棋没人会比李世石做得好indium111 Fw: [新闻] 谷歌专家：不排除出现天网的可能性zkow

Re: [好文推荐] 这两盘棋 没人会比李世石做得好

Re: [好文推荐] 这两盘棋没人会比李世石做得好