西班牙星海天才正帮DeepMind击败人类 樊麾翻版?
李杉 若朴 发自 凹非寺量子位 出品 | 公众号 QbitAI
1990年代,十几岁的Oriol Vinyals(维纽斯)成了西班牙《星海争霸》全国冠军。
他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯
说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”
他的战略思维的确获得了回报:在巴赛隆纳学习了电信工程和数学之后,维纽斯去过
微软研究院实习,获得了加州大学伯克利的电脑博士学位,接着加入谷歌大脑团队,开始
从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。
他又跟“星海争霸”打起了交道。
但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋
选手后,星海成为了下一个攻克目标。
DeepMind与《星海争霸2》的开发商暴雪展开合作,让人工智能研究人员可以通过之
前的数百万场对战进行学习。他们的目标之一,就是开发一套足够好的人工智能系统,使
之可以击败人类选手。就像DeepMind的AlphaGo击败李世石、柯洁一样。
然而,最终的目标是将其中使用的技术应用到现实世界,而不是让它始终停留在游戏
里面。
“我们正在试图理解人类以及我们大脑的工作方式。”暴雪首席软件工程师Jacob
Repp说,“如果我们能够得到这种高品质的资料流程——人类玩游戏时的原始输入以及由
此产生的结果——那就能成为研究人们行为的有用资料。”
对人工智能研究人员来说,《星海争霸2》是个颇为有趣的挑战。
与国际象棋或围棋不同,星海玩家面对的是不完美资讯博弈。“战争迷雾”意味着玩
家的规划、决策、行动,要一段时间后才能看到结果。
暴雪已经使用神经网络来获取玩家技能,而依据则是他们利用键盘和鼠标输入的资讯
、他们排兵布阵的方法、他们玩游戏时的效率。这些信号都可以用来让游戏本身更加有趣
,或者让对战双方更加均衡。
但要让人工智能玩《星海争霸2》,就必须让他们能“看到”游戏里的3D地图,并快
速而准确地加以解读。
DeepMind的首次测试,先在雅达利游戏上训练神经网络和AI智慧体(Agent),然后
再将其应用到《星海争霸2》上。即便没有进一步的指令,用雅达利游戏训练的人工智能
也可以在地图上随意走动、移动镜头、排兵布阵。
“这的确可以在一定程度上发挥作用”,Viyals说。
在加入DeepMind之前,维纽斯开发了一项图片搜索功能和Gmail的“智慧回复”,后
者可以根据邮件内容推荐相关的回复。该团队还在从事语音辨识,让人工智能记住不同人
的对话,从而在下次听到这个声音时识别出来。
“在《星海争霸2》里,也要应对这些问题。”维纽斯说。一个玩家可能看到对手的
侦察兵,然后又消失在视野中。对人工智能来说,记住他们遇到的东西,并且理解这可能
表明敌人正在某个地方修建基地,就需要使用LSTM神经网络。
维纽斯解释道,电脑可以把某个资料的记忆保留数十年的时间,但这种记忆不仅需要
保存,还要在未来针对某个资讯调取出来。
“在《星海争霸2》中,这非常重要,但却很微妙,可以将未来与过去联系起来。”
他说,“很难建立因果关系,因为游戏中会发生很多事情。”
尽管自己也是星海玩家,但维纽斯表示,DeepMind的研究并没有使用之前的技术作为
假设。
借助所谓的强化学习技术,神经网络可以直接解读他们获取的原始信号——在这个案
例中,就是《星海争霸》过往的对战录影。
SC2LE
今年8月,DeepMind和暴雪联合发布了第一篇AI打星海的论文:《StarCraft II: A
New Challenge for Reinforcement Learning》。
这篇论文的第一作者,就是维纽斯。
论文介绍了暴雪和DeepMind合作推出的SC2LE工具包,其中包括:
机器学习API:由暴雪开发,将研究人员和开发人员接入游戏,并自带首次发布的
Linux工具包。至此,Windows、Mac与Linux系统均可在云端运行。
匿名游戏重播资料集:包含65000多场游戏记录,在接下来的几周将增加至50万场,
帮助实现智慧体间的离线比赛。
开源的DeepMindPySC2工具包:方便研究人员使用暴雪的特征层API训练智慧体。
一系列简单的增强学习迷你游戏:帮助研究人员在特定任务上测试智慧体的性能。
概述开发环境的论文:记录了迷你游戏的初始基线结果、监督学习资料以及智慧体间
完整的对抗记录。
DeepMind希望通过此举,推动更多研究社区和开放工具的开发。
围棋AI“带路党”
维纽斯的故事,让量子位想起他的同事:黄士杰、樊麾。
黄士杰和樊麾都是从小就对围棋产生了浓厚的兴趣。2003年,黄士杰从台湾师范大学
毕业获得硕士学位,毕业论文:《电脑围棋打劫的策略》。
一年后,黄士杰开始攻读博士学位。2007年,黄士杰成为台湾师范大学围棋社首任社
长,并带领同学征战台湾大专杯围棋赛。
黄士杰的棋力是业余六段。
除了在现实世界下围棋,黄士杰还一直在研究围棋程式。2006年,黄士杰独自开发的
第一款围棋程式AjaGo,获得围棋大赛第11名;他参与的中国象棋程式Elephant(大象)
,获得大赛的铜牌。
2010年,黄士杰在Rémi Coulom的指导下,开发出围棋程式Erica,并在围棋比赛中
击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个
围棋程式Crazy Stone的作者。
2012年,黄士杰加入DeepMind。然后开始AlphaGo的研发。
2015年,黄士杰与樊麾相遇。当年10月,樊麾受邀前往伦敦与尚不为人所知的
AlphaGo展开对战。结果五战全败,输的樊麾一度怀疑人生。
樊麾是从小学棋的职业选手,曾经入选国少队,但后来自知与国内顶尖高手实力有差
距,所以少年时选择远走欧洲,成为欧洲围棋冠军,法国围棋队总教练。
败给AlphaGo后,樊麾也加入了DeepMind,和黄士杰一样,成为围棋AI的“带路党”
。后来的故事大家就熟知了,AlphaGo一路过关斩将,站在围棋之巅。
当然星海AI的研究,还在非常早期的阶段。最近在首尔的一场竞赛中,《星海争霸》
职业玩家宋炳具用了不到半小时就轻易击败了4个人工智能机器人。但他也承认,它们的
防守打法“有时候让人震惊”。
虽然过去20年维纽斯玩《星海争霸》机会并不多,但这位前西班牙冠军却对自己的《
星海争霸》技术满怀信心。
“人工智能现在能打败我吗?我觉得还不能”,维纽斯笑道。
— 完 —
http://sports.sina.com.cn/go/2017-11-25/doc-ifypathz5837042.shtml