[转录]加藤英树谈围棋AI的过去、现在与未来(2)

楼主: oldTim (TIME WILL TELL)   2017-11-03 16:49:44
加藤英树谈围棋AI的过去.现在与未来(2)
http://koubokukei.blogspot.tw/2017/11/blog-post_2.html
价值网络就是是阿发够强大的秘密
星合:
参加世界电脑围棋公开赛时的版本是把参加梦百合杯时的版本再升级过的吗?
加藤:
首先就是从15.0版升级到了15.3版。现在的围棋AI就是在价值网络(以下简称
VN)....
星合:
什么叫VN啊?
加藤:
不好意思。VN就是利用深度学习方法做出来一种能够推算出某个局面下黑棋看到的胜率
是多少的神经网络(模仿人类神经细胞的一种资讯处理系统)。就是阿发够把这种革命性
的手法带入电脑围棋界的。
星合:
所以可以说这就是阿发够或近来的围棋AI可以这么强大的秘密对吗?
加藤:
在使用VN之前,电脑围棋大约与职业棋士相差二、三子程度,但这二、三子之差其实是
很巨大的障碍。
大桥:
的确如此。我帮忙补充一下,大家可能都觉得围棋AI是光靠深度学习就变强的,但其实
在阿发够之前的Zen11.4版也用过深度学习法。所以正确来说,电脑围棋是使用深
度学习法来建立出VN,才一口气增强二子以上的棋力的。
星合:
常常听到人说深度学习法,但它到底是什么样的东西?
加藤:
且让我稍微来说明一下VN吧。在某个局面下,电脑会去模拟哪一方会获胜,换句话说,
就是预测谁会赢。为了进行预测,就要使用所谓的策略网络(以下简称PN)。要是没有
PN,也不会有VN。
星合:
...是喔。
大桥:
这听起来是很难没错,不过也是想了解电脑围棋中很重要的地方。
加藤:
然后,我就要来说明PN了。首先,深度学习是一种机械学习的手法。太过详细的东西我
就不在这里解释了,简单来说,就是这种方法可以“模仿人类”,而且可以学得非常好。
举例来说,最有名的就是利用深度学习而能让AI辨认、认识人类或动物的面貌。比如说
,给电脑看过几万甚至是几十万画面上是猫熊或是猩猩这种有加上标签的图片,而让它去
进行深度学习,电脑就会学习到这些图片的特征,AI就能模仿人类去辨别出猫熊与大猩
猩的面貌差异。
星合:
换句话说,深度学习就是由人类给予资料来教电脑学习是吗?
加藤:
现在虽然也有使用不同的学习手法,但根据使用给予标签的学习资料来看,的确就是这样
没错。重要的是,随着学习的时间增加,这种方法可以达到做出超越人类正确性的判断之
水准。
星合:
就是精度很高对吗?
加藤:
对,这点很关键。然后将这种手法应用到围棋上,就是要让电脑把各种局面与这种局面下
高手所下的棋组成一组资料学习起来。然后再让它学习几千万的局面。顺便一提,这个时
候让它学习的棋谱就是棋力高强的人的棋谱。因为学习过这些棋谱,它就能用高精度的方
式预测出人类所下的棋。这就是PN的原理。这个部分,其实在阿发够的论文问世前的一
年以上就有人发表过了。
大桥:
光是使用PN就能有相当强大的棋力了。
加藤:
如果使用PN来让电脑从某个局面开始下到最后,就会像人类对弈一样,会出现互有输赢
的状况。所以电脑就用乱数来决定怎么挑选次一手,所以结论就不只一个;但反复去执行
这样的流程几万伺候,就能算出那个局面下的胜率。但这样每次在对局中去计算胜率的时
间实在太长,而让写程式的人放弃这样反复计算几万次的手法。然而,大卫.席尔瓦先生
却想到了可以将电脑下到最后的模拟结果另外让别的神经网络学习起来,并且在阿发够上
实践成功。
星合:
这就是您一开始说明过、用来找出胜率的VN对吧。这样的想法非常崭新吗?
加藤:
老实说,其实这个想法应该是谁都想得到,但一般却不会这样做。这是因为这实在太消耗
时间了。至少得花上一年。但是DeepMind公司的母公司可是股沟公司,因此他们在硬件上
可以豪华地使用GPU这种东西。而且他们使用了GPU来进行通常50倍以上的计算,
所以一周左右就完成了这个学习了。真不知道这叫数量暴力还是金钱暴力啊(笑)。
星合:
就是股沟是世界级的大企业,才能这样玩吧。
加藤:
没错。股沟在自然杂志上所刊登的论文,其实并不是一般的大学或是学术研究机构的规模
能够模仿出来的。由于Zen是我和尾岛先生私人开发出来的,所以尾岛先生在看完股沟
的论文后,就判断我们无法再这样靠私人的方式进行开发,只好透过KADOKAWA的
关系向多玩国(你抠你抠的母公司)公司请求协助。于是多玩国的川上量生会长就把这个
开发案当作全日本性的专案,并把日本棋院也一起拉了进来,才开始了DZG专案。
===
作者: moonlind (又多了敷脸卡跟觅食卡了~)   2017-11-03 18:41:00
可是google用的不是一种叫做TPU的东西 比GPU又强几十倍
作者: HeterCompute (异质运算)   2017-11-03 19:02:00
推翻译,但是公司的名称也翻的太恶意,不太舒服TPU由于是8-bit,只用于下棋,不用于训练,论文有写
作者: aegis43210 (宇宙)   2017-11-03 19:15:00
但明年开始,应该大公司就大量采用FPGA来强化学习了
作者: forb9823018 (风过无痕)   2017-11-04 12:21:00
要看用途TPU是特定用途比GPU强很多但泛用性应GPU较好
作者: Neisseria (Neisseria)   2017-11-04 18:06:00
硬翻中文,有点不好看,不如维持英文

Links booklink

Contact Us: admin [ a t ] ucptt.com