https://www.youtube.com/watch?v=qUAmTYHEyM8&t=15m15s
第三战赛前访问重点整理 - 不可思议的五路肩冲怎么来
AlphaGo 计画的领导人David Silver
(重点听译 有误请见谅)
1.
Redmond(美国九段)问:
第二战的黑37手五路肩冲太令人惊讶了,
我从来没看人家这样下过,阿法狗是怎么想出来的?
Silver回:
很多人都问我这个问题,我就回去找资料看看阿法狗到底是怎么想出来的,
阿法狗有个模型,也就是方针网络(Policy Network),
是利用人类过去所下过的棋谱,来训练这个方针网络,
让这个模型可以预测人类下一步会怎么下。
然后我就问阿法狗,到底过去人类会下这步五路肩冲的机率有多少?
阿法狗说,人类棋手只有万分之一的机率会选择下五路肩冲这步棋。
(咩按:怪不得李世石要中离去抽菸啊~根本整人嘛)
虽然机率很低,但阿法狗还是有去搜寻这步棋,
经过往下评估计算之后(Value Network, Roll Out等),发现这步真的是好棋,
所以就下了这步棋。
2.
Redmond问:
即使人类下的机率这么低,阿法狗还是选择这样下了,
表示人类选择怎么下的机率不会影响到阿法狗吗?
Silver回:
人类下一步怎么下的机率,只是在最开始的时候,提供阿法狗一些搜寻的初始选项,
实际会怎么下还是要依靠阿法狗自己后续的评估结果。
(咩按:所以阿法狗有点像是依靠人类的过去下过的棋步,
来舍弃一些根本不需要考虑的位置,所以初手大元还是有可能的(误))
3.
Garlock问:
阿法狗几岁?(咩按:这问题...)
Silver回:
两岁。(咩按:开始讲一些古,台湾之光AlphaGo的脸,黄士杰,巴拉巴拉)
去年发表论文,发现光练习古人的谱,不用做任何计算,AI就可以有业余段位水准,
整个很吃惊。所以就觉得很有希望,跑去找CEO谈谈,结果就开了projetc,
找了很多人进来,成就了阿法狗跟这场世纪之战。
4.
Redmond问:
阿法狗打败了世界冠军,有人说你们有针对李世石做软件上的调整,
但刚刚听你讲起来发现好像不太可能?
Silver回:
阿法狗是用几十万份的棋谱去训练出来的,李世石的谱在数量上相比起来,
就好像把一滴水丢到大海里一样,
不太可能显著的去影响阿法狗的棋风,而且阿法狗还有很多自我对局的强化学习。
对我来讲,我们很难调整阿法狗去针对李世石,
相反的,李世石是一个很棒的棋手,
他比我们还更可能去适应阿法狗的棋风。(咩按:其实还挺有道理的)
而且只针对一个棋手去调整,其实还蛮危险的。
我们的设计目标很简单,就是设计一个程式来让胜利的机率最大化。
我们在比赛前我们还中止了阿法狗的发展进程,让我们可以顺利测试,
所以在比赛过程中,程式的版本其实是没有改变的。
5.
Redmond问:
你觉得像五路肩冲这种神奇棋步,有可能会持续出现吗?
Silver回:
我们在比赛中学到很多,从像你这样的解说评论与分析等等,
我们选择李世石也是认为他可以测试到阿法狗的极限,
但其实我们不知道阿法狗会怎么下。
我们虽然创造它,但这时候也只能站旁边看它会怎么下,
不然我现在应该是在努力coding,而不是来接受访问。
(咩按:AI可以让你不用再当好人工程师)
6.
Garlock问:
我听说阿法狗现在好像甚至不需要人类过去的棋谱来辅助?
听说可以从零开始左右互搏训练,也太让人惊讶了吧
Silver回:
目前阿法狗的确是从人类过去的棋谱来学习,
但是从零开始训练,的确是我们未来的计划,
或许棋风会变得很不一样也说不定。
(咩按:最后再说了一些这可能是五百年来最出名的围棋赛等等...)