[情报] 黄士杰：AlphaGo Zero 只用了三天，就走过人类 asglay PTT批踢踢实业坊

[情报] 黄士杰：AlphaGo Zero 只用了三天，就走过人类

楼主: asglay (收收收尾) 2017-11-13 00:39:35

趋势
黄士杰：AlphaGo Zero 只用了三天，就走过人类几千年围棋研究的历程
2017/11/10 李柏锋 AlphaGo、DeepMind、人工智能、围棋、黄士杰
评论
人工智能年会提供
DeepMind 资深研究员黄士杰博士（Aja Huang）今日回台在首届人工智能年会上发表
以“AlphaGo：深度学习与强化学习的胜利”为题的演讲，受到台湾产官学界的瞩目
，九点不到人潮就挤爆了中研院的演讲厅。黄士杰除了分享自己在人工智能与围棋上
的研究，也分享了最近发表的 AlphaGo Zero 如何不需要人类的知识就能自己学会围棋
，并且变得比打败人类棋手的前一代版本更为强大。
从台湾博士生变成被 Google 并购的 DeepMind 员工
黄士杰是台师大资讯工程研究所第一届的学生，从硕士念到博士，在博五的时候结婚
，而黄士杰在博士班时所开发的围棋软件叫做 Erica，就是妻子的名字，
当时以单机的版本打败人工智能围棋领域最强、使用了六台机器的 Zen，
也因此被 DeepMind 发觉他的能力，David Sliver 便力邀黄士杰加入，
黄士杰也成了第 40 号员工。
在面试的时候，David Sliver 问黄士杰，开发出 Erica 的感觉是什么？
黄士杰回答：“很有成就感，可以自己做出一台 AI 来。”后来进了 DeepMind ，
发现这其实是公司里面共同的感觉，而 DeepMind 的梦想就是做出
“通用的强人工智能”。2014 年，DeepMind 被 Google 并购，
进到了 Google 最大的好处就是拥有强大的运算资源。
又回到围棋，AlphaGo 的诞生
不过成为 DeepMind 的研究员之后，黄士杰并没有马上开发 AlphaGo，
而是到了 2014、2015 的时候才开始重启围棋的人工智能计画，
但也并不是接续博士班时开发的 Erica，因为当时已经发现极限了，
所以必须借助深度学习的技术重新打造，并且持续延揽世界上最厉害的人才加入，
包括加拿大 DNNresearch 的 Chris Maddison 和 Ilya Sutskever，
同样也被 Google 并购，因此就有机会一起合作。
人才、运算资源都齐备，AlphaGo 计画也正式开始了。黄士杰分享，
第一个突破是运用了神经网络的技术，原本还不确定是否会有效，
没想到实验结果出来之后，对弈原始的版本竟然是 100% 的胜率，
也让团队为之振奋。接着而来的第二个突破，则是价值网络的技术，
其实当时的模拟，AlphaGo 如果上场比赛，胜率应该有七八成，可以算是世界第一了，
但是 DeepMind 的目标远高于此，所以持续扩充团队，才有办法做更多的研究，
解决更多的问题。
黄士杰也分享，其实在开发 AlphaGo 的过程中，每天就是训练神经网络、测试、
看胜率、观察看看是不是有效，有很多点子和问题需要不断的测试，
像是深度学习的深度到底要几层？用什么架构？训练的资料有没有问题？
当然，最终检验的还是 AlphaGo 的棋力有没有变强。
在观察的过程中，也发现 AlphaGo 有 Overfitting 的问题，
解决之后 AlphaGo 就变强了，再跟上一个版本对弈，胜率是 95%，
这也是为什么演讲题目订为 AlphaGo 的成功是深度学习与强化学习的胜利。
开始与人类对弈，并发表第一篇 Nature 论文
确认了 AlphaGo 的能力之后，DeepMind 决定与真人对弈，
第一个对象是法国的二段棋士樊麾，在 2015 年 10 月，AlphaGo 五战全胜，
第五战 Nature 期刊的编辑还到场观战，确认 AlphaGo 即将发表的论文是否
真的这么厉害。樊麾也成为第一位正式被 AI 打败的职业棋士，但落败后，
樊麾认为 AI 的发展对围棋是正面的，所以后来也给 AlphaGo 团队很多帮助。
不过 DeepMind 这家公司与其说是“营利事业”，还不如说是“研究机构”。
好不容易开发出一个可以打败职业棋手的人工智能，却要发表论文将细节全部公开？
而且赢了樊麾之后，正式对九段棋士李世?宣战，公开岂不是更处于劣势？
当时黄士杰其实也不解为何公司如此决定，总觉得应该要花时间在准备比赛
而不是写论文。
DeepMind 的主张是 AlphaGo 是一个科学研究，希望能将成果公开在论文上，
推动科学领域继续往前进步。
也就因为要发表论文，Nature 要求刊登前不能公开打败樊麾的讯息，
所以大众是在好几个月之后才知道。
黄士杰也再度提到，DeepMind 加入 Google 之后，Google 所提供的
运算资源硬件设备帮助相当大，尤其后来 TPU 取代了 GPU 更是极大的帮助，
不然有很多事情根本做不了。 AlphaGo 也算是在 Google 里面第一个
大量使用 TPU 的程式。关于细节，黄士杰表示在纪录片《AlphaGo》里面都有详细描述。
从败给李世?找到弱点，再次强化学习能力
韩国之战的结果大家都知道了。打败李世?之后，AlphaGo 是否就该喊停了呢？
其实对弈过程中，第四战 AlphaGo 就出现了明显的问题，
竟然出现了连业余选手都不会犯的错，当时负责落子的黄士杰甚至觉得
自己来下说不定还比 AlphaGo 好，李世?也讶异地看萤幕确认是不是黄士杰放错位置。
既然 AlphaGo 还有问题，自然就要继续研究下去，全面性的把问题解决掉，
这个过程花了八个月，也找来生力军 Karen Simonyan 加入团队。
其实解决的方法就是在深度学习和强化学习的技术上，把学习能力再加强。
第一步，先把原本 13 层的网络增加到 40 层，也改成 ResNet，第二步则是把
Policy Network 和 Value Network 结合成 Dual Network，让 AlphaGo 的
直觉和判断一起训练。第三步，把 Training Pipelines 也加强。
除了人工智能的学习能力，黄士杰也把模仿棋、循环劫等围棋的问题也解决了，
再跟打败李世?的版本对弈，可以让三子（不贴目）还达到超过 50% 的胜率。
Master 在台南从低调下棋到举世关注
在确定解决了所能找到的所有问题之后，AlphaGo 团队决定低调上线找棋士对弈，
其实也就是后来的 Master 版本，而当然不断的赢棋之后，再也无法低调了，
最后的结果是对战中、日、韩、台的顶尖棋手，全胜。
AlphaGo 自此再也没有输给人类棋士了。
当时，黄士杰回到台湾，在台南自己的房间里面，开了一个新的帐号，邀请棋士对弈，
知名棋士还拒绝，不过后来当然就变成是黄士杰拒绝别人了，
而且每一盘棋也越来越多人观战。在对战过程中，黄士杰一直观察
AlphaGo 胜率图表的变化，除了柯洁以外，已经没有人有机会赢 AlphaGo 了。
经过小蝠的调整和改进，AlphaGo 到中国与柯洁对弈。
黄士杰也提到了比起在韩国很想要全赢，在中国对弈的气氛是比较轻松的，
因为胜负不再是重点（觉得不可能会输了），而是已经是在探索人类与人工智能之间
如何互相合作，所以比赛的名称也叫做“共创棋妙未来”。黄士杰表示，人工智能
已经不会输给人类，但是这时候人工智能的功能，是在扩展人类棋手的思路，
和人类合作一起探索围棋还未被发掘的领域。
AI 是人类的工具，不是人类的威胁。
AlphaGo Zero 只用三天，走过人类几千年围棋研究的历程
AlphaGo 团队当时已经兵分两路，黄士杰忙着用 Master 与柯洁对战，
另一组人则开发 AlphaGo Zero，而黄士杰先负责把 AlphaGo 的围棋知识全部拿掉，
并且再三确认这件事情，因为 AlphaGo Zero 是一个完全不需要人类先备知识
就能自我学习的人工智能，所以只能有规则知识，不能有围棋知识。
其实原本 AlphaGo 团队也不确定能不能成功，不过后来 AlphaGo Zero 的确
也击败了 Master，再度证明深度学习与强化学习真的很强大。
AlphaGo Zero 一开始是彻底乱下，也常常学习之后就卡住了，
经过一些调整之后才能再继续，不过有了 Google 强大的运算资源，
以 2000 颗 TPU 的运算，短短经过三天，AlphaGo Zero 就成功了。
而且不只学习能力，AlphaGo Zero 下棋的时候耗电量比起对弈樊麾时的运算，
降低很多。现在很多 Zero 所下的棋，黄士杰也看不懂了。
延伸阅读：
Nature 刊登 Deepmind 论文，最强 AlphaGo Zero 已无需人类知识，AlphaGo 惨败
结论：
总结这一路走来的收获，除了发表两篇 Nature 论文，
参与两次人机大战与 60 局的网络对弈，更有机会让人工智能与围棋两个黄士杰最喜欢
的领域都受到全世界的重视，还上了时代杂志，也拍了一部纪录片，
黄士杰觉得非常满足。而以下则是黄士杰在演讲简报上整理的五点结论：
AlphaGo 的成功，是深度学习与强化学习的胜利
AlphaGo 从起始到结尾，证明了团结力量才会大
AlphaGo 的发展，TPU 与硬件资源扮演非常重要的角色
AlphaGo Zero 显示了强化学习的巨大潜力
人工智能在可见的未来，将成为人类重要的工具，与人类合作
而在问题时，有观众问到 AlphaGo Zero 的出现，是否意味着人类知识就没有用了呢？
黄士杰则表示，这是一个值得研究的问题，AlphaGo Zero 只回答了人工智能
可以不需要人类知识，但是需不需要人类知识，是现在还没办法回答的，其实
有人类知识的确会缩短人工智能学习的时间，但没有人类知识，有没有可能
发展出截然不同的知识出来呢？
AlphaGo Zero 目前也没有开源的计画，但是黄士杰认为，在 Nature 发表的论文
都写得很详细了，也有人看着论文做出 AlphaGo Zero 并且开源了，
所以 DeepMind 是不是要开源，倒是没有太大差异。
李柏锋
每天都看很多文章，写很多文字的网络人，对于商业的运作很有兴趣，
对于科技的发展非常好奇，喜欢在都市里透过网络过乡村生活，
喜欢在乡村里透过网络过都市生活。
https://www.inside.com.tw/2017/11/10/aja-alphago-zero

楼主: asglay (收收收尾) 2017-11-13 00:43:00

Alphago Documentary Official Trailer -《AlphaGo》纪https://youtu.be/p4iFCufhY24

作者: staristic (ANSI lover) 2017-11-13 00:50:00

请原po排版排好，这样破碎的排版没法阅读

楼主: asglay (收收收尾) 2017-11-13 00:57:00

手机排版请见谅网页版应该好很多

作者: staristic (ANSI lover) 2017-11-13 01:05:00

这已经不止是手机排版的问题啦，有些文字感觉是断在一半就没下文了

作者: s891234 (嘟噜咑) 2017-11-13 02:37:00

这文章节录时出了什么问题吗？不断跳针，根本看不完

作者: seaEPC (没看见,我没看见 >_<) 2017-11-13 08:24:00

你贴完自己有没看过一遍内文?段落重复,缺字漏字,还有乱码

作者: nanlong (懒龙) 2017-11-13 12:40:00

技术先进外资源本钱也要很雄厚~ google 3天 = 别人3个月

作者: goldduck (哥达鸭) 2017-11-14 15:35:00

事实证明人类是低等生物颗颗

继续阅读

[新闻] 日本职业棋手的生活谢依旻的一天日程qweewqq [闲聊] 70胜0败的maestrogo野狐上线了！！qweewqq Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程capita [问题] 围棋vs星海争霸dharma Re: [新闻] 奥斯卡临近《AlphaGo》争最佳纪录片奖dudu5566 Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程staristic Re: [新闻] 黄士杰返台分享AlphaGo Zero开发过程tlchen [心得] 三个你不该买zen7的理由HeterCompute [新闻] 柯洁：未来属于AI 我将在金融和教育做探索qweewqq [新闻] 围甲联赛启用“新规则” 队员首次上交手机qweewqq