[新闻] AlphaGo能否挑战星海?DeepMind首次详解

楼主: joanzkow (星浪)   2018-01-29 23:56:10
击败围棋选手的AlphaGo能否挑战《星海争霸》?DeepMind科学家首次详解
经济观察网 记者 沈怡然
以开发AlphaGo征服了围棋选手李世石和柯洁而驰名世界的Deepmind公司,2014年就被谷
歌以6.6亿美元收购。2016年11月,公司曾宣称将以AI挑战《星海争霸》与玩家对抗。
2018年1月28日,DeepMind研究科学家Oriol Vinvals在《麻省理工科技评论》与DeepTech
深科技主办的新型科技峰会EmTech China上发表了题为《AI对战星海争霸胜算几何?》的
演讲,首次面向中国详细解读了该专案,并就此与麻省理工科技评论人工智能领域资深编
辑Will Knight进行了讨论。他提出了资料和任务在研究机器学习和人工智能领域的重要
性;并介绍了基于AlphaGo在深度强化学习方面取得的突破性成就;现在在机器学习如何
战胜《星海争霸II》的玩家是科学家们正在研究的话题。以下内容摘自Oriol Vinvals现
场演讲。
——编者按
在我还是伯克利大学学生的时候,就玩过《星海争霸》。我和很多伯克利分校的同事在
2010年开始做这个研究,当时我们在想的是如何争霸、如何打败敌方。
《星海争霸》是我们应用AI技术的一个出发点。在这个过程中,我们看到了很多挑战,因
此我们需要很多创新的算法。需要更多的研究人员参与进来,设计一些新的问题和任务
,看能否完成。
我们会训练整个系统,收集整个星海争霸玩家的行为进行分析。比如哪些走法可能没有优
势,哪些玩法过于简单。现在我们会为玩家提供一些打《星海争霸》最简单的走法。
游戏《星海争霸II》我们非常感兴趣,这是非常有趣和复杂的游戏,这个游戏基本上是建
造一些建筑物以及单位,在同一个地图里不同的组织会相互竞争。在这个游戏中,哪怕只
是建造建筑物,也需要做出许多决策。而除此之外,我们还要不断收集和利用资源、建造
不同的建筑物、不断扩张,因此整个游戏非常具有挑战性。
与下围棋类似,在《星海争霸》游戏中,我们也在使用强化学习。要模仿人类玩这个游戏
的方式,但即使是模仿人类点击鼠标和敲击键盘的行为也非常困难。为此,我们引入了一
个游戏引擎。
和围棋任务最大的不同在于,围棋可以看到整个棋盘,但是在《星海争霸II》中我们通常
无法看到整个地图,需要派小兵出去侦查。而且游戏是不间断进行的。整个游戏甚至会有
超过5000步的操作。而且对于增强学习,除了上下左右这些普通的移动,我们发现用鼠标
点击接口控制不同物体的移动以及不同的行为,也是非常难的。我们发布了这个环境,所
有人都可以参与其中。我们也发布了相关的报导,这基本上是一个开源的平台,大家可以
测试自己的算法。
我们还没有完成过整局游戏,但是完成了操作《星海争霸II》比较重要的7个操作,比如
选择一个单位并让它移动过去。我们所使用的算法能做到这一步,而且和人类玩家操作
的效果基本一样。而另一些任务,比如建造建筑、收集资源等,仍然是比较难的。我们测
试的算法,表现会比随机的环境要好,但和专业玩家还是有一段距离的。
有学徒式的学习方式。比如说在玩围棋的时候,有自我的教学模式,从零级开始自学。但
是玩《星海争霸》的时候,我们不是从零开始,已经是在一定的基础层上面来进行学习了
。另外很多玩家他们还会考虑到一些网上的附加服务,大家会去观察别人玩游戏的方式,
他们怎么样去移动鼠标等。我自己也是个玩家,我也会关注别的玩家动鼠标的方法、别人
的游戏行为。这对加强学习是一个新的关注点。比如说我自己玩游戏的时候,可能我不能
一直获胜。那么我还去观察很多,我输的时候会在游戏的末尾观察哪个人物角色会获胜,
通过观察一些专业玩家的行为分析这些游戏过程中的关键点。这也能说明我们进行类比学
习,以及资料监管式的学习。
对于《星海争霸》,我们做开源,一开始是设计到了围棋上。很多环境都有不同的组织模
组,围棋是一个相对来说比较简单的逻辑。讲到星海争霸,首先我们必须要从机器学习的
角度,去了解不同玩家对《星海争霸》的看法。通过收集玩家的意见就会有更多优势,比
如说如何进行复盘,以及收集整个玩家的社群,怎么比较看待第一代和第二代《星海争霸
》的版本,同时还有整个游戏对玩家的影响,都可以进行研究。去年11月份我们在洛杉矶
开会,也邀请玩家、相关的代理和一些开发者来共同讨论。
顾过去几年,我们基于AlphaGo所做的一些突破性的研究,也主要在深度强化学习这个领
域。
深度强化学习与监督学习和人类的学习方式相比,还是有一定区别的。比如对于观察本身
,算法的观察是需要环境的,没有充分的观察,早期的人形机器人在遇到障碍物的时候
往往无法顺利应对而摔倒。我们就会想,能不能建立一个模拟环境来训练这些机器人呢?
如果我们有一个很好的环境,我们就可以先去训练它。也就是说我们一定要有一个很完美
的环境才能实现我们的目标。为此,我们建立了虚拟场景,并尽可能地提高它的模拟度。
也只有在这样的强化环境下,我们才能取得进一步的进展。比如提到应用场景,我们常常
会想到游戏。人们在设计游戏的时候总是小心翼翼,以确保玩家可以获得一定的智慧化体
验。比如AlphaGo参与的围棋有3000年的历史,这是一个非常有挑战性的环境,因为没有
一个单一的解决方案能确保带来最好的结果。当然,我们也可以整合不同的能力让它们玩
不同的游戏,比如通过训练让机器人学会下国际象棋。
我们也有专门下围棋的算法,这时目标变得更加复杂,玩法也变得更加复杂。目前没有
一台机器可以通过搜索策略的方法来玩好这个游戏。
那AlphaGo是通过什么方法来玩这个游戏的呢?正是强化学习。我们的神经网络可以自动
地从资料中学习一些特征。这样我们就可以让它看着棋盘,看人类怎么走,棋盘上也会显
示出输赢。也就是说我们不需要展开整个展示走法与输赢的网络,只要展开一部分网络就
可以做出很好的模拟。这是一个很好的突破。
但这样也不是特别好。因为我们在以人的角度去学习,都要使用资料集来训练。后来我们
随机地运行游戏,下过一局之后AlphaGo就可以了解一下比赛是如何进行的,就可以调整
整个网络,最终学会下棋。
这些网络是在玩游戏的过程中不断训练提升的。AlphaZero随机下棋。经过几天的训练之
后,就学会专业棋手的走法了。
所以,我们第一版的AlphaGo击败了樊麾,后来下一个版本在韩国和李世石进行了对弈并
取得了胜利。再后来我们进一步地训练网络,整个网络比之前强了三倍,赢了柯洁和其他
专业棋手。我们是从零开始,一点点积累积资料训练,最后战胜了专业棋手。
http://www.eeo.com.cn/2018/0129/321702.shtml
作者: Adonisy (堂本瓜一)   2018-01-30 00:32:00
很难,战争迷雾每开一点就影响大局
作者: homelife (SKY)   2018-01-30 02:54:00
这篇好像没有什么新的讯息
作者: nissptt (niss)   2018-01-30 05:17:00
随时间过去,没重大新的讯息的本身,就是一项讯息。
作者: abc0922001 (中士abc)   2018-01-30 08:42:00
就是文章+1,没有意义
作者: kira925 (1 2 3 4 疾风炭)   2018-01-30 09:02:00
这篇就把之前写的东西改写一次的废文 这种整理早有了
作者: Adonisy (堂本瓜一)   2018-01-30 10:28:00
只是提醒大家我还在做
作者: dogee (超无聊的说...)   2018-01-30 10:38:00
能作出来就是在军事运用上跨一大步了?
作者: supereva (eva)   2018-01-30 10:45:00
应该真的能运用在军事喔 skynet要出现了 害怕.jpg
作者: aegis43210 (宇宙)   2018-01-30 16:59:00
只要成功,就能用在军事上啦,能自动搜索,自动辨认开火目标,实在很期待
作者: ohmylove347 (米特巴爾)   2018-01-30 19:22:00
这篇没重点啊,都是旧东西
作者: ThelmaEast   2018-01-30 19:56:00
烦屎惹、是有结论没
作者: LUOZISHANG (LUOZISHANG)   2018-01-30 21:57:00
刷刷AI 存在提醒大家还在卡关
作者: homelife (SKY)   2018-01-30 21:58:00
有关注的人应该这篇里的东西之前全都读过 XD
作者: jackace (inevitable......)   2018-01-31 00:47:00
旧闻 旧闻 还是旧闻
作者: ilw4e (可以吃吗?)   2018-01-31 01:10:00
能玩游戏以后无人机就真的靠AI飞就好了XD

Links booklink

Contact Us: admin [ a t ] ucptt.com