简单提一下今天黄博士演讲重点
演讲标题是深度学习与强化学习的胜利
认为zero是最佳的deepmind电脑围棋这部分最佳的收尾
黄博士对于一开始击败樊辉就发nature有些不解,我们要挑战李世石结果把所有技术都透漏给所有人,但deepmind的想法是我们需要分享技术让世界一起进步
google对alphago团队最大帮助是TPU
认为Master已经完美解决李世石第四盘的bug,解决方式与神经网络架构(dual res)和训练都有关,并且以他多年的电脑围棋经验与测试过后,认为不会再出现此类bug
Master是20block res-net,并改进了training pipeline和MCTS,也解决了模仿棋和循环劫(没说怎么做),能让lee版本3子并超过50%胜率
master年初60连胜每一步4-8秒,在台湾,吃方便面配黑松沙士下的,是黄博士积极鼓吹要出来测试,Hassabis说要低调并使用韩国国籍,一开始不得透漏身分
Hassabis说要挑强的下,但是第一天职业没人愿意跟0胜0负的下,都被拒绝,等到第一天10连胜之后第二天开始拒绝别人邀请
master下的时候可以看胜率随步数的图,基本上50手之前斜率很高并且确立极大优势,唯一例外是柯洁乌镇第二盘
4月的时候已经有zero,但由于要发nature所以不能拿来下
当初开发zero没预料到会超过master
master年初开发完毕之后,zero由其他人负责开发,黄博士继续想方法增强master
zero不是放在那边增强学习就会变强,中间需要做很多优化,否则有bug不会进步,其中一个重大bug发生在第三天(纪录人表示:所以看来绝艺有得忙了
AntiAlphaGo,不是像大家想的那样有新的技术,就是左右互搏,也不是gan(生成式对抗网络)
master是否被人类棋谱拖累?答案是不确定,因为master训练时间较短,deepmimd也没有针对同等条件去比较。
以上,有其他疏漏请其他人补充,并欢迎转载,但请说明作者是Hetercompute