简单说一下AlphaGo怎么掌控围棋的,
AlphaGo的成功主要来自三个部分相辅相成,
一条是策略网络(policy network),
一条是价值网络(value network),
最后则是蒙地卡罗搜寻树(Monte Carlo Tree Search 简称MCTS)。
策略网络的想法就是模仿人类的棋感,
从大量的棋谱中归纳找出最有可能的选点,
并把所有可能的选点加上机率。
价值网络的想法则是模仿人类的判断,
他会判断当前局面下谁赢的机率高,
同样也给出机率的数字。
蒙地卡罗搜寻树,
则是模仿人类细算的部分,
依照策略网络和价值网络给的讯息去分配要计算的多寡。
于是把这些通通结合之后,
成果就变的非常的强大,
因为他既能有效的找到最好的棋步去计算,
又能准确的判断出当前局面谁好,
于是这些就成为AlphaGo逻辑推理上的基础。
接着,AlphaGo要进步,就是靠着自我对弈,
自己发现自己逻辑上的漏洞,然后不断的强大自我,
于是变成了人类再也看不懂,也没办法下赢的存在。
至于从零开始学习的AlphaGo Zero,
和最一开始的AlphaGo相比,
改进的第一点是他的网络架构变得更好,学的更有效率了,
接着第二点是,最一开始的蒙地卡罗搜寻树是有一些人类的棋理在里面的,
他会加上一些限制免的AlphaGo下出一些脱序的棋,比方说怎么样才是活棋,
以及征子怎么算等等,
而改进的第二点就是把人类这些棋理拿掉。
而最后结果,虽然AlphaGo Zero用了一些小trick加强了网络,
从而得到好像比之前所有的版本都还要强的AlphaGo,
但是还是证明了从零开始,不用任何围棋知识,
也能做出非常强大的围棋AI。
而Zero伟大的地方在哪里呢?
一个新的领域,就算我不太清楚他这块领域的深入知识,
但是我只要掌握基础知识,然后可以仿造自对弈的过程去制造data,
就能创造出远远超越人类知识的结果。
至于未来有没有可能手机上的围棋AI也能下赢顶尖职业棋士?
答案是有可能的,
AlphaGo Zero论文有说,他的AlphaGo一个局面如果只模拟1次,
相当于完全是第一感,没有经过任何验证,
但即便在这种条件下,等级分仍然有3000出头,
相当于一个普通职业棋士的等级分,
所以这些,就是神经网络伟大以及强大的地方。
作者:
arrenwu (键盘的战鬼)
2018-03-22 09:38:00你讲的Zero伟大的地方那边,有一个小小的 loophole就是呢,这种"自我锻炼并提升"的做法并没有广泛可行性围棋算是这类应用里面的软柿子看看星海争霸现在的情况就知道了
作者:
GKki2012 (chichi)
2018-03-22 09:40:00前天去书局买书的时候路过看到一本"类神经网络"的书
作者:
arrenwu (键盘的战鬼)
2018-03-22 09:40:00我其实讲来讲去只是想表达:现代的AI没那么"聪明"
棋类游戏是人类为了追求公平特别精练过的 规则比较严谨
作者:
arrenwu (键盘的战鬼)
2018-03-22 09:41:00@GKki2012 你只要知道类神经网络是一个模仿既有资料进行
作者:
tkigood (提谷德)
2018-03-22 09:41:00挑软柿子吃也没什么好责怪的 就跟妳不会说妳小学学加减
作者:
arrenwu (键盘的战鬼)
2018-03-22 09:42:00我没有说挑软柿子吃不好 我做研究也绝对先吃软柿子
现实社会上 变量很多 而且很难进行优劣判断时 AI就很难用
作者:
GKki2012 (chichi)
2018-03-22 09:45:00可是讨论AI的话 像arr大那么专业且逻辑严谨的人不多
作者:
GKki2012 (chichi)
2018-03-22 09:46:00被高手电 可以了解一些以前不懂的概念很爽
作者:
arrenwu (键盘的战鬼)
2018-03-22 09:46:00我一点都不专业啦 至少实务经验很少 只是了解些理论类神经网络并不是什么新的概念或新科技只是以前因为硬件落后 很多应用时间上算不出来不能用
作者:
GKki2012 (chichi)
2018-03-22 09:47:00可是如果跟 似懂非懂 的人鬼打墙的话 就会很累
作者:
arrenwu (键盘的战鬼)
2018-03-22 09:48:00我还是坚持人类比现在的AI聪明太多太多了XD至少人类从相对很少的案例就可以学到很多东西但是类神经网络必须要用很多很多的案例才能学到一定程度
作者:
GKki2012 (chichi)
2018-03-22 09:50:00有些人类习以为常的动作对机器人来说需要非常精密的运算
作者:
arrenwu (键盘的战鬼)
2018-03-22 09:51:00我是觉得如果不涉及思考的话 机器应该是比较强没错你所说的精密运算 是我们觉得很精密 但芯片可能1ms就算完
作者:
GKki2012 (chichi)
2018-03-22 09:53:00但是跟我们作出来的时候 自己会没有意识到那些动作有多复杂度有多高
作者: madrac (madrac) 2018-03-22 09:55:00
类神经网络就是模仿人类的神经元, 做出有学习能力的东西
作者:
ssccg (23)
2018-03-22 10:22:00这边前面没错,但Zero的差别不是你说的Zero拿掉人类知识的部分,是从0开始训练,不是因为MCTS有人类知识,MCTS只是个算法,在每个点的选择靠别的决策方式Zero中用的是在训练时,以目前网络来做MCTS,再把结果用来更新目前的网络,下棋时只用这一个网络不再用别的方法是之前的AlphaGo是用人类知识做的MCTS,不是MCTS有人类知识Zero学的更有效率根本原因是拿MCTS来当学习的指导者啊但是就像你回推文的,旧AlphaGo中的人类知识不只MCTS有,神经网络本身就有supervised learning的结果你本文的说法像人类知识是在MCTS里面,但Zero拿掉的人类知识不止这个,学习本身也改成随机值开始、完全reinforcement大篇幅写AlphaGo,但Zero很多部分接近砍掉重练却草草带过不觉得怪怪的吗? Zero最终是一个网络输出policy和value两个结果,还比较像模仿人类一个脑同时选点和判断局势