※ 引述《dharma (达)》之铭言:
: 有人说可能是架设摄影机来观看萤幕画面
: 机械手臂操控键鼠(限制手速)
: 让AI能以最接近人类的方式来竞赛
: 也有人说是游戏内容会转换成给AI软件读取的资讯
: 类似下面影片这样
: https://www.youtube.com/watch?v=5iZlrBqDYPM
: 请问比赛方式有定案了吗
: thanks
刚好这个礼拜又迎来了AlphaGo对柯洁的对局。不过目前Deepmind对星海这部分透露的还不
多,只能聊一些对未来可能作法的猜测了。
就像很多板友在推文里谈到的,人类与AI的对决会有很多技术性问题。例如要如何让AI认
识每个单位、地形、资源,这也是原po连结中我们目前唯一可以瞥见的相关技术释出。其
他的还有常常在争议的输入方式,包括APM等等。不过我认为对Deepmind来说,最重要的问
题还是“如何建立一个成功的决策系统”,而不会是悍马2000这种对比于人类几乎无限APM
的操作方式。
围棋的资讯对两方玩家都是完全公开的。玩家们都是靠着当下局面的同样讯息进行决策。
而在攻克围棋这个项目后,会来尝试星海我想也是不让人那么意外的。围棋和星海同样是
现成的游戏,所以它们的规则清楚、目标明确;而两个游戏在决策上最大的不同处则可能
在于资讯的透明程度。
从设计围棋的决策系统来看,AlphaGo必须要能评估每个局面下的利益,这样才能知道自己
下的这步棋是不是“好”的。对比到星海,我们可以常常想到小色和91这些“专业解说”
在下判断时也常常会有“虽然吃掉这波兵,但是经济落后太多”、“目前局势对他不利,
就看他能用领先的科技打到什么东西”,这类的“价值判断”。而价值判断正确与否的最
终判准在于游戏最后是不是赢了。所以像是如何拿捏经济、科技、兵力这种资源分配的决
策就是AI需要去学习的。另外,还有兵种如何搭配,例如人类机械化虽然正面强,但如果
被对方拖住战线,自己的后方就很容易受到骚扰而又机动力不足,无法即时回撤。又比如
有时候“没回头路了,只能换家”、“这时候再不推出去就没机会了”之类的战机把握也
是相当重要的决策。
比起围棋,因为规则的不同而使得星海的决策种类变得非常不同。而最该死的,更是这些
决策时常是建立在资讯的不完整上。“要如何运用手上已有的资讯来预测对方可能作出的
决策,并作出合理的决策来进行应对”,这话说起来很饶口,用例子可能比较清楚,最单
纯的可能是看虫族的农民数、有无开气来猜测对方是慢狗开、快狗开、抢经济等的战略。
比较神乎其神的是像教主开图那样,觉得事情不对劲,抓到对方野兵营。比如很久以前看
到一场大雨神的比赛,对方野隐刀,但是大雨神(对我来说)莫名其妙的在没侦查到隐刀塔
的情况下用三水晶把自己的家门封住。这样的决策绝对是有理由的,其他板友的解释是说
由于在侦察对方基地时看到对方早开气,但又一直没看到耗气的兵种,所以下了对方野隐
刀这样的判断。
这使得如何、何时更新手上的资讯本身就变成重要的决策之一。例如几分钟洒雷达?几分
钟看到什么代表什么意思?前期的毒暴虫巢是一波;中期的反而是为了防守。什么时候又
要二次侦查?确定自己的情报不是被对方作表情误导的?
这样说起来,在星海中要做出一个成功的决策系统实在是满高的挑战。目前AlphaGo的胜率
也许可以挑战九成以上了,虽然目前样本不多,但从最旧的版本到目前最新的版本,人类
能赢的只有李世石那唯一的一盘。可以说在围棋规则的决策环境中,AI已经可以代替人类
作出更好的决定了。跟星海比较起来,我想比较不同之处在于星海的资讯不透明上,另一
点则是决策时间更短,需要运算得更快。如何调配资源、配兵、出兵这类的决策我想对AI
来说不算太难,有足够的时间应该就能建立起来。比较难的还是如何在有限的资讯量下持
续作出更好的决策,同时还得克服比起围棋更加动态的局面。
APM等等问题,在人类对决中是重中之重,决定何方高手更能执行自己的决策。但我想对于
Deepmind来说,更重要的是透过游戏这种“规则明确”、“价值判断明确”的特性来学习
如何建立一个成功的决策系统。再不断挑战各种限制和复杂程度的环境之后,才更有机会
面对人类社会中的其他决策,毕竟生活之中有许多问题的决策比起游戏更加复杂,或者暧
昧不明......