[情报] AlphaGo Zero,新版本的AlphaGo

楼主: HeterCompute (异质运算)   2017-10-19 01:36:59
https://www.youtube.com/watch?v=tXlM99xPQC8
https://www.youtube.com/watch?v=WXHFqTvfFSw
https://deepmind.com/blog/alphago-zero-learning-scratch/
新的AlphaGo Zero,是完全没有受人类棋谱影响的AlphaGo,
训练3天,以胜率100%打败了AlphaGo 李世石版本,
21天,达到了Master版本(柯洁)的水准,
并且在训练40天之后,对Master版本胜率90%,
论文也登在Nature。
https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html
作者: jacklin2002   2017-10-19 01:40:00
...终于要神乎其技了吗?
作者: birdy590 (Birdy)   2017-10-19 01:46:00
训练三天后完封李世石版, 最后对柯洁版 100 场赢 89算法也变了.. 全靠自己训练果然比人手动干预更强
作者: yys310 (有水当思无水之苦)   2017-10-19 01:47:00
Re:从零开始的下棋生活
作者: birdy590 (Birdy)   2017-10-19 01:48:00
policy/value network 合并, 不再使用 rollout~看看其它围棋软件多快会跟进
作者: ddavid (谎言接线生)   2017-10-19 01:53:00
这个进展有点快啊
作者: AirOctopus (AirOctopus)   2017-10-19 01:56:00
连结第二个是这个吧?https://www.youtube.com/watch?v=WXHFqTvfFSw
作者: Borges (波波波波)   2017-10-19 01:58:00
好想看master被虐的棋谱..无法想像master会怎么被虐
作者: hcsoso (索索)   2017-10-19 02:00:00
棋谱在Nature论文的补充资料可找到:https://goo.gl/xx5jbF有自战, 对李世石版本, 及对Master版本的棋谱
作者: hit0123 (@@")   2017-10-19 02:33:00
上帝降临了...
作者: staristic (ANSI lover)   2017-10-19 02:35:00
快速打完了Zero对Master,布局大概就两种,开局前20手左右都长一样,和先前55盘自战多样的布局不同不知道是不是因为是挂在论文下的关系特别选的但是Zero的自战又不一样了,多数二连星对二连星但也有少数不是的,然后看到Zero对Master都没出现的小目一间跳守角
作者: AirOctopus (AirOctopus)   2017-10-19 04:27:00
那个自战,好像只有40block资料夹的最后一盘是完全体前面19盘似乎是各个阶段的自战
作者: bahamutjr (AT)   2017-10-19 08:22:00
https://youtu.be/-Wh4CfsWDyMhttps://youtu.be/xOVwmCOX7S4有新的系列影片上传了 ZERO 对决 MASTER
作者: ilw4e (可以吃吗?)   2017-10-19 08:26:00
天网要出现了XD
作者: Yibooo ( )   2017-10-19 08:32:00
《第一天下围棋就上手》~AlphaGoZero著
作者: oldTim (TIME WILL TELL)   2017-10-19 08:32:00
作者: enjoytbook (en)   2017-10-19 08:35:00
右上那个定石不是黑棋自己挑的吗xd
作者: qweewqq (風一樣的男子)   2017-10-19 08:43:00
是说Alphago要不要开放让棋手练习这样
作者: ztdxqa (ztdxqa)   2017-10-19 09:07:00
感觉Zero的下法比较淳朴 没有像master那么震撼
作者: jaw13 (jaw)   2017-10-19 09:18:00
围棋上帝...
作者: ztdxqa (ztdxqa)   2017-10-19 09:20:00
唯有deepmind才能打败deepmind 腾讯做那么久也没啥进步 scientist 跟 engineer的差别
作者: vencil (vencs)   2017-10-19 09:59:00
真是厉害
作者: jpg31415926 (圆周率π)   2017-10-19 10:21:00
科学家或工程师又不相冲突...明明是开创者与追随者的差别
作者: watermelon92 (ACE)   2017-10-19 10:32:00
终于来了!
作者: wz02022 (Jeter)   2017-10-19 10:37:00
崩溃
作者: oldTim (TIME WILL TELL)   2017-10-19 10:38:00
作者: Austin820920   2017-10-19 10:51:00
真的是神了…
作者: Rain0224 (深语)   2017-10-19 10:52:00
前面的自战棋谱人类棋手都还没研究完,结果又有新的了@@
作者: s891234 (嘟噜咑)   2017-10-19 11:17:00
........我还以为他们团队去做别的计画,怎么这妖怪还能进化啊Orz
作者: lwei781 (nap til morning?)   2017-10-19 11:50:00
反普归真之前就做了 现在跑资料这四月多就写好了啊
作者: oldTim (TIME WILL TELL)   2017-10-19 12:14:00
投nature审稿也要审个几个月八
作者: yangsungo (林帛亨加油!!!)   2017-10-19 12:20:00
alphago继续这样下去 围棋会有唯一解到时就会有记忆派棋手出现了
作者: ilw4e (可以吃吗?)   2017-10-19 12:33:00
唯一解还早,而且贴目数也有影响
作者: kenwufederer (Nash)   2017-10-19 12:37:00
不觉得围棋会有唯一解,只有当前局面最好的一手
作者: lwei781 (nap til morning?)   2017-10-19 12:38:00
贴目影响应该爆大
作者: kenwufederer (Nash)   2017-10-19 12:40:00
我想,Zero就证明了这点
作者: ssccg (23)   2017-10-19 12:40:00
有唯一解也不见得记的住...对手又不会跟你一起下最佳解还要把所有变化都记住才算唯一解
作者: goldduck (哥达鸭)   2017-10-19 13:12:00
怎会有背最佳解会赢的可能
作者: Yibooo ( )   2017-10-19 13:33:00
先把国际象棋的惟一解找出来再来担心这件事吧 -_-
作者: cubec (cubec)   2017-10-19 15:19:00
http://tinyurl.com/y8z2l6db AlphaGo Zero的80局对弈棋谱
作者: liaon98 (liaon98)   2017-10-19 16:45:00
围棋有唯一解 kenwufederer大你自己讲的话实际上逻辑矛盾你都知道每个局面都有最好一手 那么一盘局就是从头到尾每一步都是一个局面 所以每一步都有最好一手那么这不就是在讲围棋有唯一解? 你前后自己矛盾
作者: lyricslee (奕)   2017-10-19 17:15:00
有唯一解是确定的事
作者: kenwufederer (Nash)   2017-10-19 18:27:00
哪里矛盾…最好的一手不代表只有这一手…可能有两手胜率相同
作者: lwei781 (nap til morning?)   2017-10-19 18:27:00
不是一定唯一啊而且要看贴目
作者: kenwufederer (Nash)   2017-10-19 18:33:00
只要有打劫,就不会有唯一解而且还要看对手的应法只有等到能算尽变化的效能出现才有唯一解不然这种算法是不会有唯一解的
作者: liaon98 (liaon98)   2017-10-19 18:45:00
“只有等到能算尽变化的效能出现才有唯一解”你自己上面是说“不觉得围棋会有唯一解”而不是说“这种算法是不会有唯一解的”
作者: kenwufederer (Nash)   2017-10-19 19:44:00
围棋本来就不可能有唯一解原因已经说明了,围棋规则就是这样就算两个一样的电脑都一样有胜负问题在没有Zero,Master是最强现在Zero出现,超越了Master之后我就认为当下最佳解是Zero至于唯一解,是给计算时间一年一步的Zero吗?围棋不是数学,如果你不能理解这个就继续坚持有唯一解,不能说你的理念有错
作者: staristic (ANSI lover)   2017-10-19 19:50:00
我说k大,你要不要去唸一下基础的赛局理论
作者: kenwufederer (Nash)   2017-10-19 19:50:00
但必须说在现今围棋规则下不可能
作者: staristic (ANSI lover)   2017-10-19 19:51:00
围棋绝对是数学的一部份
作者: kenwufederer (Nash)   2017-10-19 19:51:00
没有唯一解是规则造成的,不是其他原因连围棋是数学的一部分都出来了…我只是想说明这些胜负规则是人定出来至于围棋跟数学的关系,愿闻其详数学也没有唯一解,都是目前最佳
作者: staristic (ANSI lover)   2017-10-19 19:54:00
围棋本质就是赛局啊,赛局在数学上是一门分支
作者: kenwufederer (Nash)   2017-10-19 19:54:00
会觉得唯一解就是因为目前受限的原因
作者: staristic (ANSI lover)   2017-10-19 19:55:00
若围棋不能被数学所描叙,AlphaGo根本就做不出来
作者: kenwufederer (Nash)   2017-10-19 19:55:00
OK,围棋跟数学的关系是我错了但我只是想说明围棋一定有更上层次如同Master跟Zero一样何况他们之间还不是100%的胜率但原因是因为人类棋谱干扰还是算法改变?这点我没办法确定,可能连他们工作人员也不能保证
作者: staristic (ANSI lover)   2017-10-19 19:57:00
没什么更上层次啦,围棋之神也就是棵超大的赛局树而已
作者: Seikan (星函)   2017-10-19 19:57:00
围棋不是拓朴学的一种吗?广义来说算是数学吧?
作者: staristic (ANSI lover)   2017-10-19 19:58:00
困难点是无法证明我们的更好一手是真正的更好
作者: OilCy (OilCy)   2017-10-19 20:29:00
围棋很伟大 但是跟数学比较太渺小了..怎可能不是数学的一环
作者: oldTim (TIME WILL TELL)   2017-10-19 20:44:00
围棋有唯一解可以用策梅洛定理(Zermelo's theorem)来证明策梅洛定理:在二人的有限游戏(即完成游戏下的步数有限)中如果双方皆拥有完全的资讯,并且运气因素并不牵涉其中那先行或后行者当一必有一方有必胜/必不败的策略
作者: ssccg (23)   2017-10-19 20:58:00
围棋程式是在降低复杂度找最好的近似解,相对于整个树是更下层次,本来就不是用这种算法在求唯一解
作者: yys310 (有水当思无水之苦)   2017-10-19 21:26:00
AG:0 不知道pair go还有没有帮助
作者: joejoejoe (拎刀挥宿处)   2017-10-19 23:13:00
RL的算法只是在Approximate最佳解而已吧我想最佳解是存在 只是几乎求不出来 也无法证明已求出
作者: Rueyh (追寻永远)   2017-10-19 23:26:00
星位被点三三 Zero给的答案是立四子抢先拆边小飞被尖冲直接手拔 大概又要开始被模仿一阵子了
作者: tlchen (台湾加油)   2017-10-19 23:41:00
必胜必败跟唯一解可差多了
作者: jamesho8743 (加拿大好美)   2017-10-19 23:42:00
围棋本质基本上跟井字游戏没有任何不同 只是它的变化是天文数字 在上帝或计算力非常高智慧体眼中也不过是一盘无聊的井字游戏
作者: tlchen (台湾加油)   2017-10-19 23:43:00
在固定贴目下, 黑棋或白棋或必胜的策略, 但这不等同于唯一假设黑棋是必胜好了,也不是在361位置中只有一个位置必胜除去对称性,黑棋必胜的第一手不一定只有一个
作者: jamesho8743 (加拿大好美)   2017-10-19 23:46:00
它就简单的有最强应手 能让你输最少(或羸最多)只是最强应手会有很多很多
作者: tlchen (台湾加油)   2017-10-19 23:47:00
即使以胜多少来当标准,也可能有好几个第一手可以胜最多
作者: jamesho8743 (加拿大好美)   2017-10-19 23:48:00
Tlhen 说法正确
作者: tlchen (台湾加油)   2017-10-19 23:48:00
另外,我对于完全没用到人类围棋知识,我是很怀疑.之后找时间去看看论文之所以会怀疑,是有点讶异人类的三三定石,Alphazero也这样去下.那些定石真的有到完美?或是不完美,但alpha-zero也刚好找到这样当它的最佳解?
作者: jamesho8743 (加拿大好美)   2017-10-19 23:53:00
算法好的话 没必要用到人类知识 这没什么好怀疑的人类知识也一样只是人类对局经验累积而来假设人第一手下星位 神第一手也下星位 不能说神是抄人的 也不能说人类经验很重要 真理总是殊途同归 只是神跟alpha go 更接近真理 走得更远
作者: AmibaGelos (Amiba Gelos)   2017-10-20 00:01:00
是真的没用到人类知识,起始都是彻底随机的. 唯一用到的是围棋的旋转镜像对称性. 其实master版跟0版就只差在master版有先用kgs棋局训练过,而master版究竟训练了多久论文里也没讲. 蛮好奇同样训练60天会是谁强
作者: jamesho8743 (加拿大好美)   2017-10-20 00:01:00
某些基本定石一定也会有 基本上神来也是这样下 因为不这么下铁亏 除非周围配置有所不同
作者: joejoejoe (拎刀挥宿处)   2017-10-20 00:07:00
好奇有多少版友因为AlphaGo开始接触RL..
作者: jamesho8743 (加拿大好美)   2017-10-20 00:12:00
总之围棋没有唯一解 但有数不尽的最佳解 即双方都最强手 但最强手有很多选择 但最后胜负差是相同的
作者: birdy590 (Birdy)   2017-10-20 00:55:00
有公布前期棋谱啊 根本随机乱下下著下著 人类归纳的很多棋理就慢慢出现了
作者: hne (hne )   2017-10-20 01:11:00
就我对论文的理解,zero版和master版在算法上还是有差异的可以看做 zero 版在算法上又做了纯粹的强化,以此条件开始从零开始自我训练,训练的强度上升比之前的版本快了很多。
作者: birdy590 (Birdy)   2017-10-20 01:16:00
论文有提到 原本的算法不适合完自我学习
作者: hne (hne )   2017-10-20 01:17:00
对,因此, zero的版本更适合自我学习
作者: birdy590 (Birdy)   2017-10-20 01:18:00
两个network合并准确率有下降 但运算简化有补回来结果棋力反而变强 乱猜的rollout也被舍弃
作者: hne (hne )   2017-10-20 01:19:00
看完只有拜服阿,从强到更强超强爆强的感觉 Orz
作者: birdy590 (Birdy)   2017-10-20 01:20:00
一开始爱吃子 慢慢学会围地和厚势然后一些已知的定式被发现 这时候就已经很强了
作者: hne (hne )   2017-10-20 01:23:00
现在可以臭屁,我还可以赢学3小时的 alphago zero , lol
作者: AmibaGelos (Amiba Gelos)   2017-10-20 02:34:00
err其实只有差rollout跟feature,前者对训练的影响是0后者差13倍但需要耗资源学规律所以很难说哪个比较好
作者: ddavid (谎言接线生)   2017-10-20 02:52:00
@tlchen 你只要想一下,人类的定石也不过就是从古至今从对局或自我研究中累积下来的经验不断传承下来,人类一开始也是从零出发的现在AlphaGo Zero不过就是靠高速大量对局在以天计的时间内排完了人类长久以来的研究得到一样甚至超前的结果而已而人类可以自豪的就是,以人类完成一局棋需要那么久的时间,能进化的速度如此之慢,然而AlphaGo还是证明了人类毕竟长久的累积还是对了很多东西。不要因为被AlphaGo超越就开始否定人类累积下来的东西,这事实上就只是人类研发出来的新进化方式超越了人类以前的旧进化方式罢了
作者: oldTim (TIME WILL TELL)   2017-10-20 10:03:00
不过有看到一种说法,AlphaGO也有inductive bias,只是刚好它的算法跟人类下棋的bias是同一路数,所以有可能某日来了个外星人用全新的算法避开AlphaGO和人的bias达到更高
作者: tlchen (台湾加油)   2017-10-20 10:07:00
可能我太看清人类的能力了.所以,alphao zero所呈现的,我反
作者: oldTim (TIME WILL TELL)   2017-10-20 10:07:00
境界,也就是说现在Zero自学得出和人类类似的的定式未必能证明这些定式就是正确无误
作者: tlchen (台湾加油)   2017-10-20 10:08:00
而是惊讶人类的成果.至于说 alpha zero 多快就达到多高的实力. 其实若是从下的局数来看, 而不是以时间来看,它或许不见得那么厉害我当然不是说它不强,它强到没有办法去谈.只是就学习来说不该只用时间来说它比人类快
作者: birdy590 (Birdy)   2017-10-20 11:50:00
AlphaGo 算法目标只有一个, 就是要把会赢的方法记下来它连在棋盘上乱填都没有排除, 这样要怎么说有 bias?
作者: aegis43210 (宇宙)   2017-10-21 00:51:00
个人觉得alphago/zero一定还有死活问题master还特别用个反master来消除master的死活问题
作者: vaper (风雨飘摇的世代)   2017-10-21 02:24:00
一种自我冥想练功的概念,阿发狗快出来社交,不然会变宅宅变得多强不是重点,还要下赢人才能称神
作者: birdy590 (Birdy)   2017-10-21 03:23:00
zero 跟 master 不一样 没剩下什么是人类给它的
作者: lwei781 (nap til morning?)   2017-10-22 00:55:00
Master 处理死活防输
作者: wadashi1 (阿拉丁)   2017-10-22 23:05:00
master已碾压全部的人类,没机会输,而zero还碾压master,一个神上面还有更高的神的境界,而且进步还没有结束..
作者: lwei781 (nap til morning?)   2017-10-23 07:47:00
七龙珠感

Links booklink

Contact Us: admin [ a t ] ucptt.com