[新闻] DeepMind揭露新一代AI系统MuZero

楼主: Kowloon (九龙舰长)   2021-04-04 11:38:47
https://www.ithome.com.tw/news/141845
DeepMind揭露新一代AI系统MuZero:不知游戏规则也能有效规画行动
新一代AI系统MuZero能在完全不知规则的情况下,熟悉围棋、西洋棋、将棋,以及57款
Atari游戏,且效能大幅超越了现有最佳的DQN、R2D2与Agent57系统,可望用来解决现实
生活中,规则太复杂或完全不知规则的各式难题。
文/陈晓莉 | 2020-12-24发表
Alphabet旗下的人工智能子公司DeepMind,继发表了围棋AI系统AlphaGo,以及同时精通
围棋、西洋棋与将棋的AlphaZero之后,于本周再度揭露了新一代AI系统MuZero,它能够
在完全不知规则的情况下,熟悉围棋、西洋棋、将棋,以及57款Atari游戏,且效能大幅
超越了现有最佳的DQN、R2D2与Agent57系统,可望用来解决现实生活中,规则太复杂或完
全不知规则的各式难题。
比较DeepMind的几代产品,2016年的AlphaGo是透过已知的规则、围棋领域的知识,再加
上人类资料训练而成,让它击败了全球的围棋好手;2017年的AlphaGo Zero,则是仅利用
已知规则,自我学习而达到与AlphaGo同样的境界;2018年的AlphaZero也是仅基于已知规
则,但把挑战范围从围棋扩大到西洋棋与将棋,便能同时精通这3项棋戏;而最新的
MuZero则未被喂入任何的已知规则,在未知的动态环境下就能自动学习规则并作出最佳判
断,且MuZero系统把挑战范围从上述的围棋/西洋棋/将棋,扩大到Atari出品的57款游戏
,并取得优秀的成绩。
DeepMind团队说明,规画是人类智慧的一项重要能力,让人类能够解决问题并替未来作出
决策,人类通常很快就可以学到计画的能力,同时也能延伸到新的场景,而这也是该团队
期许AI系统能够达到的。
研究人员最初试着透过两种作法来解决此一问题,包括超前搜寻(lookahead search)与
基于模型的规画能力,但前者必须仰赖诸如规则或精确模拟器等环境动态的知识,让它难
以适用于解决复杂且通常缺乏简单规则的现实世界问题;后者虽然可借由学习环境动态的
精确模型来进行计画,但针对环境的每一方面来建模,则无法满足视觉丰富的领域,例如
Atari,迄今针对Atari的最佳解决方案为非模型的AI系统,包括DQN、R2D2与Agent57,它
们并非使用学习模型,而是推测下一步的最佳作法。
于是MuZero摒弃了上述两种方式,采用了截然不同的作法,它只针对系统决策程序的重要
因素来建模。研究人员形容,人类的规画能力呈现在当看到乌云时,即推测可能会下雨便
带了把伞,MuZero的逻辑则在于,了解伞能够让人们保持干燥,比针对空气中的雨滴进行
建模更有用。
因此,MuZero的模型着重在能够协助规画的环境变动因素,包括现在位置的价值、最佳行
动的政策,以及上一个行动的成效,借由深度神经网络进行学习,以理解当采取特定行动
时所产生的结果,并据此展开规画。
DeepMind团队测试了MuZero在围棋、西洋棋、将棋与Atari游戏上的效能,发现它替强化
学习算法设立了全新的水平,不仅于棋戏项目达到与AlphaZero同样的效能水准,在
Atari游戏上更凌驾了所有现有的最佳系统。
此外,该团队也发现,要是赋予MuZero更多的思考(演算)时间,例如原本移动围棋每个
棋子的时间为1/10秒,在将它拉长至50秒之后,MuZero在围棋上的技能将增加 1000 Elo
,两者之间的差距就如同一个厉害的业余玩家,以及一个世界最强的专业棋手。
同样的,在Atari其中一款游戏《小精灵小姐》(Ms Pac-Man)上进行测试时,MuZero在
每个行动上可选择5~50个数量的规画模拟,结果显示所选择的规画数量愈多,MuZero就能
学习得更快,也能取得更好的效能;有趣的是,若将MuZero的每个行动限制在只能选择6
或7个规画模拟,它同样能够达到优秀的效能,透露出MuZero可在情况与行动之间进行归
纳,而不一定要搜寻所有的可能性。
研究人员认为,当MuZero具备学习环境模型的能力,并用它来进行规画时,呈现的是强化
学习与通用算法上的重大进步,AlphaZero已被用来解决化学或量子物理等问题,而
MuZero将可用来解决机器人、工业系统或其它未知规则的混乱现实环境中,所存在的新挑
战。
作者: intointo (樱花)   2021-04-04 12:04:00
wow
作者: RicFlair (Figure-four Leglock!!)   2021-04-04 15:09:00
终于制霸atari了吗
作者: staristic (ANSI lover)   2021-04-04 15:11:00
不知道规则也能下?意思是不是有办法不考虑贴目或配置直接判断一个局部定式好坏?
作者: abc0922001 (中士abc)   2021-04-04 16:03:00
不用事先输入规则而已吧
作者: saviora (飓风之翼)   2021-04-04 21:23:00
意思就是他可以自己探索规则
作者: earltyro (伯茶)   2021-04-05 09:14:00
S大 应该是没有说明书 一直输 输到学会的意思啦
作者: rnoro (隼)   2021-04-09 02:05:00
其实应该没有什么新东西,只是把规则变成参数的一部分而已

Links booklink

Contact Us: admin [ a t ] ucptt.com