https://mp.weixin.qq.com/s/GqWbbmblXB1-W9izHWQFYg
DeepMind AlphaStar星际争霸2首秀:Demo很强大,现场比赛竟然输了
两年前,DeepMind 曾宣布开始研究打即时战略游戏《星海争霸2》的人工智
慧,今天,AlphaStar 终于首次亮相在世人眼前。在对阵人类职业玩家、前
WCS 亚军MaNa 的一场比赛中,人工智能却被人类“狡诈”的战术迷惑,输
给了对手。
看来,人工智能在征服这个“最复杂游戏”的过程中还需要学会应对很多战
术和突发情形。在全球首场星海争霸2 的“人机大战”中,AI 和人类玩家
都使用了神族。
人工智能表示:Pimba,所以我用神族(其实当然不是了,是因为神族的兵
种最容易计算)。
挑战游戏AI 的最高峰
2018年,机器之心记录了OpenAI人工智能挑战Dota 2的全部过程:从最初的
1 v 1战胜Dendi,到5 v 5团队赛中击败业余人类玩家,最后在TI 8中挑战
职业玩家败北。
虽然OpenAI 的人工智能在TI 8 现场的表现不尽人意,但我们可以看到这个
社群在AI+游戏领域不断取得进步。
除了Dota2、王者荣耀这样的Moba 类游戏,星海争霸因其丰富的多层次游戏
机制,对于人工智能研究来说也是一个再理想不过的环境。过去一年,机器
之心报导了众多机构在星海争霸、星海争霸2 上的AI 研究成果。而我们所
熟知的DeepMind,在围棋专案结束之后也成为了AI+星海争霸研究的主力之
一。
两天前,DeepMind宣布会以线上直播的形式公布AI+星海争霸2方面的最新进
展,吸引了AI社区、游戏社区的极大关注。
小编作为Dota2菜鸡,今日为大家带来最新的报导:DeepMind 的AlphaStar
很强,它在一个月前接连以5:0 的比分战胜了Liquid 战队的两名职业选
手,但现场比赛却输了。
与DeepMind 的其他人工智能一样,打星海争霸2 的人工智能也需要一个自
己的名字。在人机大战开场数小时前,DeepMind 创始人Demis Hassabis就
透过Twitter 向我们揭晓了谜底,继AlphaGo、AlphaGo Zero、AlphaFold
之后,新的AI名为AlphaStar。
在AI 圈、游戏界关注之下,DeepMind 的星海争霸2 AI 首秀开始。此次
Demo 的主持人为美国电子竞技解说Artosis。Artosis 的诅咒就被喻为欧美
星海争霸圈内的最强毒奶。RotterdaM 是星海争霸2 官方解说,前魔兽3、
星海2 职业选手。
在开场前,DeepMind 联合研究负责人Oriol Vinyals 对比了Atari 游戏、
围棋与星海争霸2 三者之间的复杂度。
星海争霸2 是人类游戏史上最困难、最成功的即时战略游戏,这一系列游戏
的历史已经超过20 年。星海争霸长盛不衰的部分原因在于其丰富的多层次
游戏机制,对于人工智能研究来说,这是一个非常接近现实世界的虚拟环
境。
星海争霸拥有平衡的游戏规则,以及诸多资讯和需要控制的变量。例如,虽
然游戏的目标是击败对手,但玩家也必须顾及并平衡子目标的数量,比如收
集资源(水晶和气矿)或建造房屋(提高人口限制)。此外,一场比赛的时
间通常为几分钟到一小时不等,这意味着游戏中提早执行的操作也许会很长
时间不见成效。最后,由于战争迷雾的存在,地图对于玩家只有部分显示,
这意味着AI必须结合记忆与规划才能成功。
星海争霸还有其他吸引研究者的方面,比如每天上线竞争的大量狂热玩家。
这保证了有大量的游戏记录数据可以学习,以及大量可与AI竞争的优秀人类
对手。
甚至星海争霸的操作空间也是一个挑战,可从超过300 种操作中做选择,相
比之下Atari 游戏只有10 种操作选择(例如,上下左右等)。在此之上,
星海争霸中的操作是层级的,能够进行调整、增强,有很多游戏单位需要点
击屏幕控制。即使一个84x84 分辨率的小屏幕,大概也存在1 亿种可能的操
作。
5:0 击败LiquidTLO?演戏吗?
AlphaStar 对决的第一个人类对手,是Liquid战队的星海争霸2 职业玩家
LiquidTLO。他是一名来自德国的虫族玩家,活跃于2013-2015 年,本名
Dario Wünsch。TLO 职业生涯最好的成绩是2013 年6 月,在HomeStory
Cup VII 获得第三名,目前TLO 的全球排名为68 位。
TLO 对于能够被邀请来到DeepMind 成为首个接受AI 挑战的职业选手感到有
些惊喜:“当时DeepMind 发了封电子邮件来邀请我,后来我发现自己就来
伦敦了。”虽然在主玩虫族之前, TLO 还打过一阵Random,但他已经28 岁
了,神族游戏强度存疑。他在前去DeepMind 对战之前练习了百场比赛。
比赛期间,小编也逛了scboy 的直播。黄旭东表示,LiquidTLO 都已经28
了,找他来打,开玩笑吗?虽然AI 限制了APM,但是因为AI 应该完全没有
无效操作,180 的APM 还是很高的。而相对于人类选手,有效操作180 已经
是顶级强度了。
开场之后,第一盘人类选手使徒双开对AI 单矿VR。第一波使徒骚扰
AlphaStar 防守中规中矩,可以说不亏不赚。之后反穿了两个使徒打到了6
个农民拖后了开矿节奏。而后AlphaStar 开门带运输机前压,点掉电池之后
通过运输机操作秀了人类选手一脸,AI 不朽还在路上TLO 就打出GG。
此时的AlphaStar 看起来表现不强,菜鸡互啄。开局没有去对手家里探路,
也没有做纪律性的查看对手有没有野建筑之类的操作,让人难以明白AI 是
怎么判断对手的战术的。
在展示的第三场比赛影片中,双方打出一个双矿对开的局面。AI 前期补了
两矿农民才放下基地,但是人口还是领先,给到了人类选手一定的压力。尤
其是在操作上,AI 操作猛如虎。但是从比赛看来它还是有非常大的局限
性,对于一些情况完全不知道如何处理,而且并没有多线操作,而是所有兵
力集中推进。大概唯一的多线就是在AI 家里的运营一直非常稳健。影片中
虽然TLO 利用一些小多线和凤凰、立场打回了一些。尤其是在中期有一波AI
领先60 人口但是没有打过,人口差一度被打回20 以内。但是由于AI 平稳
的运营,还是把优势掌握在手里,直到最后人类选手打出GG。
最后,AlphaStar 以5:0 的绝对优势击败了TLO。旭东老仙与众多网友都表
示TLO 未能发挥出职业玩家该有的强度,请的演员吗?(不是小编说的)。
但是看了下面AlphaStar 对战波兰选手MaNa 的影片之后,之前看了TLO 比
赛喊著“收了钱、放水、假赛”的叛徒们又转弯了。
5:0 击败MANA,服了
在LiquidTLO 之后,DeepMind 的AlphaStar 对决的人类选手是同样来自
Liquid战队的MaNa。MaNa 本名Grzegorz Komincz,来自波兰,曾在2015 年
的WCS 闯进决赛,这是一个正经的神族选手。
https://i.imgur.com/EYxj2RA.gif
对战MaNa 时,AlphaStar 视角的神经网络处理视觉化。神经网络观察影
像,输入内容会激活网络的不同节点,进而开始“考虑”应对的动作,例如
点击和建造,并预测各种结果。AlphaStar 也会预测对手的发展情况,尽管
有时因为战争迷雾的存在无法完全做到。
在第一场比赛中,AI 的第一个水晶很难受,影响了采气,但是AlphaStar
主动放了一个战术:在MaNa 基地附近放下了两个BG,但是很快就被MaNa 看
到。之后,MaNa 放下电池后放心的派出先知去AlphaStar 家里屠农,但是
AI 在顶着MaNa 两个追猎的火力点掉了高地下方的石头之后,坚决的打出一
波。虽然MaNa 的不朽已经走出VR,但是第一时间被点掉。拖农民对于AI 的
操作根本没有影响,先知回防也被立刻点掉,MaNa 打出GG。
看了对战MaNa 的影片,旭东老仙说,AlphaStar 凤凰的这个操作有些夸
张,是人类玩家无法实现的。对战MaNa 和TLO 中间间隔了一周,看来已经
学会堵口的建筑学了。
此外,AI 对于农民采矿的细节应该是也在不断调整。我们可以从影片中看
出,同样的农民数量,采矿效率总是比人类选手高。
看到这里,我们可以发现AlphaStar 此时的操作和运营真的无懈可击,它对
攻击对象的选择也是很精确,没有浪费火力,也就是说战斗中几乎是0 失
误。
这样的电脑看来只能拼一枪战术了,操作肯定是拼不过了,看看能不能在兵
者诡道方面占一些便宜。
第四场影片看到的就是AI 用无解的操作非常赖皮的以劣势兵种强吃人类玩
家兵力。虽然AI 主力只有追猎者,但是被MaNa 分割之后打出了三线拉扯,
打出了罕见的追猎包不朽,一波瞬间1600 的APM 之后操作完胜,MaNa 主力
死光无奈GG。
最后,MaNa 0:5 同样败北。
现场对决MaNa:出人意料的反转
https://www.youtube.com/watch?v=UuhECwm31dM
AlphaStar 背后的故事
在上面这段记录影片中,DeepMind 回顾了AlphaStar 的超快进化历程:
2018 年12 月10 日,AlphaStar 击败了DeepMind 公司里的最强玩家Dani
Yogatama;到了12 月12 日,AlphaStar 已经可以5:0 击败职业玩家TLO 了
(虽然TLO 是虫族玩家,但解说们认为他在游戏中的表现大概能有5000 分
强度);又过了一个星期,12 月19 日,AlphaStar 同样以5:0 的比分击败
了职业玩家MaNa。
为了让人感受充分训练后AlphaStar 的强大,DeepMind 安排了一场现场对
决。MaNa 在比赛前称,自己要来一场“复仇之战”。
出人意料的是,这一场比赛人类选手竟然获胜了。
这是AlphaStar 首次星海争霸2 的人机大战直播。通过这场比赛我们可以看
到AI 的一个缺陷:除了特定的分兵战术,并没有灵活的兵力分配概念。这
让我们想起打星际1 电脑的远古时代,开局派出一个农民去攻击电脑的基
地,电脑就会派出所有农民去一直追杀你这个农民。这场MaNa 也是利用的
相似的办法,棱镜带着两不朽在AI 的基地不停骚扰,AlphaStar 一旦回防
立刻飞走,等AI 兵力出门又立刻继续骚扰。
AlphaStar 是如何学会打星海争霸2 的
TLO 和MaNa 等专业星海争霸玩家在整场比赛中平均每分钟可发出数百个动
作(APM)。这一数据远小于星海争霸的机器人(它们可以单独控制所有单
位,达到数万APM)。在对阵TLO 和MaNa 的比赛中,AlphaStar 的平均APM
是280,稍低于职业玩家,不过AI 的操作都是有效操作。DeepMind 称,
AlphaStar 的APM 较低是因为AI 使用人类玩家对战的Replay 进行训练,从
而模仿了人类的游戏方式。此外,AI 在观察影像和进行操作之间的延迟平
均为350 毫秒。
在比赛结束后不久,DeepMind 官方blog随即放出了整个Demonstration 的
影片与AlphaStar 的技术介绍:http://bit.ly/2Mxe2a6
简介中表示:AlphaStar的行为是由一种深度神经网络生成的,它从原始游戏
界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令
序列。具体来说,该神经网络在单元中使用了一个transformer作为躯干,
结合了一个深度LSTM核、一个带有pointer网络的自动回归策略head以及一
个中心价值Baseline。
AlphaStar也使用到了全新的多AI学习算法。神经网络最初通过暴雪公开的
匿名人类游戏影片以监督学习进行训练。这让AlphaStar能够通过模仿进行
学习天梯玩家的基础微操与宏观操作策略。
https://i.imgur.com/3Pf8GRo.png
AlphaStar 联盟。最初是通过人类玩家的游戏重播影片进行训练,然后与其
他对手对抗训练。每次迭代就匹配新的对手,冻结原来的对手,匹配对手的
概率和超参数决定了每个AI采用的的学习目标函数,保留多样性的同时增加
难度。AI的参数通过强化学习进行更新。最终的AI采样自联盟的Nash分布
(没有更换)。
https://i.imgur.com/96dyHRz.png
比赛匹配分级评估:对不同训练时间的AlphaStar 联盟强度的大约估计
https://i.imgur.com/wfUgF4b.png
随着自我博弈的进行,AlphaStar 逐渐开发出了越来越成熟的战术。
DeepMind 表示,这一过程和人类玩家发现战术的过程类似:新的战术不断
击败旧的战术。
为了训练AlphaStar,DeepMind 使用了Google最先进的深度学习芯片TPU v3
构建了一个高度可扩展的分布式训练配置,支援数千个对战训练平行运算。
AlphaStar League 运行了14 天,每个Agent使用16 块TPU。在训练时间
上,每个AI相当于训练了人类的200 年游戏时间。最后成型的AlphaStar 采
用了各个AI中获胜概率最高战术的组合,并可以在单个GPU 的计算机上运
行。
DeepMind 表示,对于这项工作的全面描述已经写成论文,目前正在接受同
行评议期刊的审阅。又会是一篇Nature 吗?
结语
看了前面重播的比赛影片,我们经历了从“很失望”、“AlphaStar 不
行”,到“AI 的操作有点意思”,最后到“人类要完”、“打不过了”。
但最终的现场决赛,人类玩家还是扳回一城。
此外,DeepMind 的AlphaStar 也许并非最强的AI。芬兰电竞战队ENCE 也在
两天发布通告:Artificial Overmind 挑战赛的获胜AI 将可以挑战世界冠
军Serral,也许这会是一场值得期待的人机对决。