楼主:
qweewqq (風一樣的男å)
2018-09-19 01:02:52一个AI玩57个游戏 DeepMind离万能通用AI不远了
文章来源:公众号 量子位
DeepMind刚刚宣布,他们在多工学习上取得了巨大的进展,也就是让单个智慧体学会
许多不同任务:
DQN(Deep Q-Network)现在可以用同样的算法一口气学会玩57个雅达利游戏了,
而且玩得还不差,能达到人类中位数水准。
这意味着,人类离创造出会做许多不同事情的通用人工智能(AGI)又进了一步。
此前,每个智慧体(agent)只会玩一个游戏,有专门玩《吃豆人》的,有专门玩《打砖
块》的,有专门玩《乒乓球》的。如果让学会了《打砖块》的AI去玩《吃豆人》,那就会
捡了芝麻丢了西瓜,等它学会《吃豆人》,就把《打砖块》给忘了。
直到去年3月,DeepMind才研究出新的算法,让AI学会《吃豆人》后不忘记《打砖
块》怎么玩。
但在让1个AI学57个游戏时,DeepMind遇到了问题:
每个游戏的计分机制不同,奖励尺度也不同,AI只挑得分高的玩。
△ 乒乓球
拿玩乒乓球(Pong) 的游戏来举栗,每一步有三种可能的奖励:
-1:AI没接住对方发来的球,不仅没挣分,反而倒贴一分;
0:AI接住了球,进入了敌我双反循环往复的弹球过程,努力却没有收获;
+1:AI费了半天劲,终于让对方失手一次,才能得1分,名义上是1分,实际这1分来
之不易。
但如果AI选择去玩吃豆人,只要一出门,就可以吃到一连串的豆豆,轻轻松松获得几
十上百分,分多、事少、易上手。
之后每走一步 (转弯) ,可能的奖励就有很多种了:也许往前一格就死了,也许走
十几格都没遇到敌人,也许无敌状态下吃掉几只敌人,分数会很不一样。
于是,只要不被敌人抓到,吃豆的奖励明显比打乒乓球高得多。
AI每天沉迷吃豆,忘记打球,醉心于一小部分游戏,全然不顾身上还肩负著代表全AI
界、学会全部57个雅达利游戏的重任。
这该如何是好?
DeepMind想了想,推出了给智慧体“修改KPI”的大杀器:
PopArt。
具体怎么玩?
PopArt技术,可以让不同游戏的奖励尺度互相适应起来,两个游戏就能受到相对平等
的对待。
如此,就算分值的数量级相差很多,也不要紧。
研究人员用PopArt调教了当前最先进的强化学习智慧体,使得一只AI可以学会57种雅
达利游戏了,表现超过了人类的中位数。
其实,深度学习靠的是不断更新的权重。这样,输出的动作就会越来越接近理想的动
作。
这在深度强化学习里,也一样适用。
PopArt的工作原理,就是估算各种目标动作之间的平均值,以彼此之间的差距有多大
。通过游戏分值来估算。
然后,在更新权重之前,用这些统计资料,把目标动作归一化。
这样一来,学习过程就会变得比较稳定,不容易因为奖励尺度之类的因素而发生改变
。
那么,怎样才能估计得准?
那么,怎样才能估计得准?
网络的输出值,可以重新调回真实目标的范围 (True Target Range) ,只要把归
一化过程倒过来就好了。
如果写代码不仔细,统计资料会把所有没归一的输出全改了,就算是用不着归一就已
经很好用的那种,也会改掉。
要预防这种情况,DeepMind找到了一个方法,每次更新统计资料的时候,都把网络朝
著反方向更新一下。
这种操作会成功,表示调整奖励尺度 (同时,把之前学过的输出就留在那里不动)
,还是有用的。
团队说,之所以给AI起名PopArt (波普艺术) ,用意就是保存老的,加上新的。
PopArt替代的是奖励剪裁 (Reward Clipping) 。
PopArt替代的是奖励剪裁 (Reward Clipping) 。
一般来说,遇到奖励尺度不同的情况,研究人员会选择剪裁一下奖励。
把太大的和太小的,都调整到 [-1, 1] 的区间里,这是归一化的粗糙版。
虽然,这个方法学习起来更容易,但学习目标也会发生变化。
还是吃豆人的游戏,目标就是吃豆和吃敌人,每颗豆10分,吃掉敌人会获得200到1,
600不等的分数。
剪裁奖励的话,吃豆和吃敌人可能就没区别了。这样训练出来的AI,很可能只吃豆,
完全不去追敌人,毕竟吃豆容易。
这时候用PopArt归一化,来代替剪裁步骤,训练效果就截然不同了。智慧体会去追敌
人了,得的分数也高了许多。
实验结果
最后,研究人员将PopArt应用于Importance-weighted Actor-Learner
Architecture (IMPALA)中,这是DeepMind此前提出的、最常用的深度强化学习智能体
。
在ALE模拟器中,研究人员测试了57种Atari游戏中,智慧体在奖励剪裁和未剪裁两种
情况下,应用PopArt前后的得分情况。
可以看出,橙色的PopArt-IMPALA平均表现为人类正常得分中位数的110%,未剪裁版
中的平均得分为人类水准的101%,可以看出,无论剪裁与否,PopArt都能提高智慧体在游
戏中的得分。
蓝色未应用PopArt的IMPALA智慧体表现比较糟糕,无论是否经过了剪裁。剪裁后的基
线总水准不足人类得分中位数的60%,未剪裁时的得分接近0%,与PopArt-IMPALA的表现形
成了鲜明的对比。
此外,由于多工PopArt使用了特定级别值增加了网络容量,因此研究人员进行了额外
的实验,想解开增加网络容量对自我调整归一化的影响。图中粉色的MultiHead-IMPALA走
势,就是研究人员用特定级别的值预测,但不使用PopArt自我调整标准化学习得到的结果
。
实验表明,无论是否剪裁,MultiHead-IMPALA的表现都比IMPALA略差,这证实了
PopArt-IMPALA的性能提升确实是源于自我调整规模的变化(adaptive rescaling)。
研究人员还研究了每种智慧体处理的总帧数的曲线。此前,DeepMind发布了任务集合
DmLab-30,包含公共动作空间的视觉统一环境中的多种挑战性任务,训练智慧体再好不过
。
在这里,研究人员还是用自家的DmLab-30基准衡量应用了PopArt策略的效果优异程度
。图中每一片颜色区域代表了最优得分和最差得分区间。可以看出,在家DMLab-30任务集
合上训练时,仍然为PopArt策略下的智慧体表现最好。
综上所述,与没有PopArt的基准智慧体相比,PopArt大大提高了智慧体的性能。无论
奖励是否剪裁,PopArt智慧体在游戏中的中位数得分高于人类中位数,远远高于结合了剪
裁奖励的基准智慧体。而具有未剪裁奖励的基线无法得出有意义的表现,因为它无法有效
处理游戏中奖励规模的大幅度变化。
传送门
最后,附DeepMind官方博客位址:
https://goo.gl/PMPevd
论文Multi-task Deep Reinforcement Learning with PopArt地址:
https://arxiv.org/abs/1809.04474
http://sports.sina.com.cn/go/2018-09-18/doc-ifxeuwwr5482488.shtml
作者:
Acetoxy (阿斯)
2018-09-19 01:04:00还远的很
作者:
Nuey (ä¸è¦é¬§äº†å¥½æš´)
2018-09-19 01:05:00嗯嗯 跟我想得差不多 楼下也是对吧
作者:
kuoyipong (petohtalrayn)
2018-09-19 01:05:00看不懂
作者:
a210510 (随风)
2018-09-19 01:15:00等可以玩FGO一抽宝五 再跟我说
作者:
minoru04 (华山派巴麻美)
2018-09-19 01:18:00有种去玩ACTION 52
想一想 其实AI在线上游戏市场应该也是有需求的 边缘人玩边缘多人游戏没真人可以配对的时候就可以让AI上场可沟通交流,会学习,会犯错
作者:
kenyun (中肯阿皮)
2018-09-19 01:22:00吃豆人比乒乓好玩没问题啊
我认为直到能训练AI破解KOTY大赏作品时才算站上起跑点
作者:
nanami56 (I 佛 U)
2018-09-19 01:25:00以后线上游戏玩法就是先买AI然后叫AI农
作者:
siscon (laisan)
2018-09-19 01:26:00DQN=日本8+9
作者: leonho40412 (霜月) 2018-09-19 01:28:00
这篇没阅读难度 到底前几楼是反串还是真的太记者了
作者:
yys310 (有水当思无水之苦)
2018-09-19 01:34:00这样就离万能不远了? 这啥结论
作者:
kenyun (中肯阿皮)
2018-09-19 01:51:00哪个天才让AI自写程式 再给它评分系统 天网就完成了
作者:
LonyIce (小龙)
2018-09-19 01:59:00感觉还是跳脱不了设定
作者:
twtwch (zhTW)
2018-09-19 02:08:00所以无双一直有人支持
作者:
andey (影子)
2018-09-19 02:09:00那给他玩 E.T.会怎样?
作者:
twtwch (zhTW)
2018-09-19 02:10:00跟一开始的ai一样一直吃豆
作者:
Kenqr (function(){})()
2018-09-19 02:18:00嗯嗯 跟我想的差不多
作者:
bitcch (必可取)
2018-09-19 02:18:00如何做出U戏天才AI
作者:
jixian (litMager)
2018-09-19 02:22:00哇
作者: LuMya 2018-09-19 02:47:00
想看ai打炉石
作者:
idf64 (雷月)
2018-09-19 04:54:00Ai表示 粪game没有玩的必要
作者:
abelyi100 (abelyi100)
2018-09-19 06:32:00就想说吃豆人是什么鬼,看原文果然是PACMAN
作者: HOLDSTEAK (握牛排) 2018-09-19 07:11:00
什么时候能做出软件老婆(?)
作者:
bnn (前途无亮回头是暗)
2018-09-19 07:40:00...什么时候能看到AI一怒打开游戏修改大师(?)
作者: ernova831 2018-09-19 08:09:00
算了吧 上星海还不是被打成智障
作者:
GFGF (GFAT)
2018-09-19 08:10:00原来 AI 也会觉得痛苦太多收获太少 XD
作者:
notsmall (NotSmall)
2018-09-19 08:12:00感谢分享
捡了芝麻丢了西瓜是这样用的吗 = =Dota2 禁眼禁粉禁道具 逼人打线才赢非现役职业
作者:
gssay123 (gssay谚)
2018-09-19 09:21:002 3楼真配合
作者:
KingofBP (åµé¢¨èŒ¶)
2018-09-19 09:23:00等它可以帮农再说
作者:
Haikyuu (Shoyo)
2018-09-19 09:27:00还是弱人工智能阿
别再说什么dota了,那家什么openai连围棋都不敢玩
作者:
Segal (Dino)
2018-09-19 14:23:00DQN游戏王即将诞生
作者:
CarbonK (HTYISABUG)
2018-09-19 14:38:00只有我觉得这成果超厉害的吗……