[新闻] 一个AI玩57个游戏 DeepMind离万能AI不远了

楼主: qweewqq (風一樣的男子)   2018-09-19 01:02:52
一个AI玩57个游戏 DeepMind离万能通用AI不远了
文章来源:公众号 量子位
  DeepMind刚刚宣布,他们在多工学习上取得了巨大的进展,也就是让单个智慧体学会
许多不同任务:
  DQN(Deep Q-Network)现在可以用同样的算法一口气学会玩57个雅达利游戏了,
而且玩得还不差,能达到人类中位数水准。
  这意味着,人类离创造出会做许多不同事情的通用人工智能(AGI)又进了一步。
此前,每个智慧体(agent)只会玩一个游戏,有专门玩《吃豆人》的,有专门玩《打砖
块》的,有专门玩《乒乓球》的。如果让学会了《打砖块》的AI去玩《吃豆人》,那就会
捡了芝麻丢了西瓜,等它学会《吃豆人》,就把《打砖块》给忘了。
  直到去年3月,DeepMind才研究出新的算法,让AI学会《吃豆人》后不忘记《打砖
块》怎么玩。
  但在让1个AI学57个游戏时,DeepMind遇到了问题:
  每个游戏的计分机制不同,奖励尺度也不同,AI只挑得分高的玩。
 △ 乒乓球
  拿玩乒乓球(Pong) 的游戏来举栗,每一步有三种可能的奖励:
  -1:AI没接住对方发来的球,不仅没挣分,反而倒贴一分;
  0:AI接住了球,进入了敌我双反循环往复的弹球过程,努力却没有收获;
  +1:AI费了半天劲,终于让对方失手一次,才能得1分,名义上是1分,实际这1分来
之不易。
  但如果AI选择去玩吃豆人,只要一出门,就可以吃到一连串的豆豆,轻轻松松获得几
十上百分,分多、事少、易上手。
  之后每走一步 (转弯) ,可能的奖励就有很多种了:也许往前一格就死了,也许走
十几格都没遇到敌人,也许无敌状态下吃掉几只敌人,分数会很不一样。
  于是,只要不被敌人抓到,吃豆的奖励明显比打乒乓球高得多。
  AI每天沉迷吃豆,忘记打球,醉心于一小部分游戏,全然不顾身上还肩负著代表全AI
界、学会全部57个雅达利游戏的重任。
  这该如何是好?
  DeepMind想了想,推出了给智慧体“修改KPI”的大杀器:
  PopArt。
  具体怎么玩?
  PopArt技术,可以让不同游戏的奖励尺度互相适应起来,两个游戏就能受到相对平等
的对待。
  如此,就算分值的数量级相差很多,也不要紧。
  研究人员用PopArt调教了当前最先进的强化学习智慧体,使得一只AI可以学会57种雅
达利游戏了,表现超过了人类的中位数。
  其实,深度学习靠的是不断更新的权重。这样,输出的动作就会越来越接近理想的动
作。
  这在深度强化学习里,也一样适用。
  PopArt的工作原理,就是估算各种目标动作之间的平均值,以彼此之间的差距有多大
。通过游戏分值来估算。
  然后,在更新权重之前,用这些统计资料,把目标动作归一化。
  这样一来,学习过程就会变得比较稳定,不容易因为奖励尺度之类的因素而发生改变

那么,怎样才能估计得准?
  那么,怎样才能估计得准?
  网络的输出值,可以重新调回真实目标的范围 (True Target Range) ,只要把归
一化过程倒过来就好了。
  如果写代码不仔细,统计资料会把所有没归一的输出全改了,就算是用不着归一就已
经很好用的那种,也会改掉。
  要预防这种情况,DeepMind找到了一个方法,每次更新统计资料的时候,都把网络朝
著反方向更新一下。
  这种操作会成功,表示调整奖励尺度 (同时,把之前学过的输出就留在那里不动)
,还是有用的。
  团队说,之所以给AI起名PopArt (波普艺术) ,用意就是保存老的,加上新的。
PopArt替代的是奖励剪裁 (Reward Clipping) 。
  PopArt替代的是奖励剪裁 (Reward Clipping) 。
  一般来说,遇到奖励尺度不同的情况,研究人员会选择剪裁一下奖励。
  把太大的和太小的,都调整到 [-1, 1] 的区间里,这是归一化的粗糙版。
  虽然,这个方法学习起来更容易,但学习目标也会发生变化。
  还是吃豆人的游戏,目标就是吃豆和吃敌人,每颗豆10分,吃掉敌人会获得200到1,
600不等的分数。
  剪裁奖励的话,吃豆和吃敌人可能就没区别了。这样训练出来的AI,很可能只吃豆,
完全不去追敌人,毕竟吃豆容易。
  这时候用PopArt归一化,来代替剪裁步骤,训练效果就截然不同了。智慧体会去追敌
人了,得的分数也高了许多。
  实验结果
  最后,研究人员将PopArt应用于Importance-weighted Actor-Learner
Architecture (IMPALA)中,这是DeepMind此前提出的、最常用的深度强化学习智能体

  在ALE模拟器中,研究人员测试了57种Atari游戏中,智慧体在奖励剪裁和未剪裁两种
情况下,应用PopArt前后的得分情况。
  可以看出,橙色的PopArt-IMPALA平均表现为人类正常得分中位数的110%,未剪裁版
中的平均得分为人类水准的101%,可以看出,无论剪裁与否,PopArt都能提高智慧体在游
戏中的得分。
  蓝色未应用PopArt的IMPALA智慧体表现比较糟糕,无论是否经过了剪裁。剪裁后的基
线总水准不足人类得分中位数的60%,未剪裁时的得分接近0%,与PopArt-IMPALA的表现形
成了鲜明的对比。
  此外,由于多工PopArt使用了特定级别值增加了网络容量,因此研究人员进行了额外
的实验,想解开增加网络容量对自我调整归一化的影响。图中粉色的MultiHead-IMPALA走
势,就是研究人员用特定级别的值预测,但不使用PopArt自我调整标准化学习得到的结果

  实验表明,无论是否剪裁,MultiHead-IMPALA的表现都比IMPALA略差,这证实了
PopArt-IMPALA的性能提升确实是源于自我调整规模的变化(adaptive rescaling)。
  研究人员还研究了每种智慧体处理的总帧数的曲线。此前,DeepMind发布了任务集合
DmLab-30,包含公共动作空间的视觉统一环境中的多种挑战性任务,训练智慧体再好不过

  在这里,研究人员还是用自家的DmLab-30基准衡量应用了PopArt策略的效果优异程度
。图中每一片颜色区域代表了最优得分和最差得分区间。可以看出,在家DMLab-30任务集
合上训练时,仍然为PopArt策略下的智慧体表现最好。
  综上所述,与没有PopArt的基准智慧体相比,PopArt大大提高了智慧体的性能。无论
奖励是否剪裁,PopArt智慧体在游戏中的中位数得分高于人类中位数,远远高于结合了剪
裁奖励的基准智慧体。而具有未剪裁奖励的基线无法得出有意义的表现,因为它无法有效
处理游戏中奖励规模的大幅度变化。
  传送门
  最后,附DeepMind官方博客位址:
https://goo.gl/PMPevd
  论文Multi-task Deep Reinforcement Learning with PopArt地址:
  https://arxiv.org/abs/1809.04474
http://sports.sina.com.cn/go/2018-09-18/doc-ifxeuwwr5482488.shtml
作者: Acetoxy (阿斯)   2018-09-19 01:04:00
还远的很
作者: Nuey (不要鬧了好暴)   2018-09-19 01:05:00
嗯嗯 跟我想得差不多 楼下也是对吧
作者: kuoyipong (petohtalrayn)   2018-09-19 01:05:00
看不懂
作者: KuBiLife (人生苦逼)   2018-09-19 01:10:00
现在打的赢sc2简单电脑了吗?
作者: kaj1983   2018-09-19 01:11:00
会玩galgame了吗?
作者: s32244153 (Hir0)   2018-09-19 01:14:00
玩HGAME 一次走57条路线
作者: a210510 (随风)   2018-09-19 01:15:00
等可以玩FGO一抽宝五 再跟我说
作者: minoru04 (华山派巴麻美)   2018-09-19 01:18:00
有种去玩ACTION 52
作者: siro0207 (希罗)   2018-09-19 01:19:00
想一想 其实AI在线上游戏市场应该也是有需求的 边缘人玩边缘多人游戏没真人可以配对的时候就可以让AI上场可沟通交流,会学习,会犯错
作者: kenyun (中肯阿皮)   2018-09-19 01:22:00
吃豆人比乒乓好玩没问题啊
作者: uranus013 (Mara)   2018-09-19 01:22:00
我认为直到能训练AI破解KOTY大赏作品时才算站上起跑点
作者: shiro0701 (我以农药作战)   2018-09-19 01:24:00
事情都挑简单的做啊,AI连人类的缺点都学会了
作者: DailySuicide (DailySuicide)   2018-09-19 01:24:00
dqn不是什么日文单词吗
作者: nanami56 (I 佛 U)   2018-09-19 01:25:00
以后线上游戏玩法就是先买AI然后叫AI农
作者: jonathan793 (pusheen cat)   2018-09-19 01:26:00
看来离解决框架问题还远得很
作者: siscon (laisan)   2018-09-19 01:26:00
DQN=日本8+9
作者: leonho40412 (霜月)   2018-09-19 01:28:00
这篇没阅读难度 到底前几楼是反串还是真的太记者了
作者: yys310 (有水当思无水之苦)   2018-09-19 01:34:00
这样就离万能不远了? 这啥结论
作者: smart0eddie (smart0eddie)   2018-09-19 01:45:00
0.0
作者: kenyun (中肯阿皮)   2018-09-19 01:51:00
哪个天才让AI自写程式 再给它评分系统 天网就完成了
作者: LonyIce (小龙)   2018-09-19 01:59:00
感觉还是跳脱不了设定
作者: twtwch (zhTW)   2018-09-19 02:08:00
所以无双一直有人支持
作者: andey (影子)   2018-09-19 02:09:00
那给他玩 E.T.会怎样?
作者: twtwch (zhTW)   2018-09-19 02:10:00
跟一开始的ai一样一直吃豆
作者: Kenqr (function(){})()   2018-09-19 02:18:00
嗯嗯 跟我想的差不多
作者: bitcch (必可取)   2018-09-19 02:18:00
如何做出U戏天才AI
作者: jixian (litMager)   2018-09-19 02:22:00
作者: LuMya   2018-09-19 02:47:00
想看ai打炉石
作者: swallow0327 (思华洛君)   2018-09-19 03:11:00
当然不可能有AI能跳脱设定亚,至少现阶段是
作者: idf64 (雷月)   2018-09-19 04:54:00
Ai表示 粪game没有玩的必要
作者: abelyi100 (abelyi100)   2018-09-19 06:32:00
就想说吃豆人是什么鬼,看原文果然是PACMAN
作者: HOLDSTEAK (握牛排)   2018-09-19 07:11:00
什么时候能做出软件老婆(?)
作者: bnn (前途无亮回头是暗)   2018-09-19 07:40:00
...什么时候能看到AI一怒打开游戏修改大师(?)
作者: ernova831   2018-09-19 08:09:00
算了吧 上星海还不是被打成智障
作者: GFGF (GFAT)   2018-09-19 08:10:00
原来 AI 也会觉得痛苦太多收获太少 XD
作者: notsmall (NotSmall)   2018-09-19 08:12:00
感谢分享
作者: Edwin0606 (åš•)   2018-09-19 08:27:00
还以为是在说苏趴ㄟ哀绊爱 抽卡还抽到爆气
作者: GlowNight246 (GlowNight)   2018-09-19 08:28:00
捡了芝麻丢了西瓜是这样用的吗 = =Dota2 禁眼禁粉禁道具 逼人打线才赢非现役职业
作者: gssay123 (gssay谚)   2018-09-19 09:21:00
2 3楼真配合
作者: KingofBP (嵐風茶)   2018-09-19 09:23:00
等它可以帮农再说
作者: Haikyuu (Shoyo)   2018-09-19 09:27:00
还是弱人工智能阿
作者: mrmowmow (mow)   2018-09-19 11:16:00
别再说什么dota了,那家什么openai连围棋都不敢玩
作者: Segal (Dino)   2018-09-19 14:23:00
DQN游戏王即将诞生
作者: CarbonK (HTYISABUG)   2018-09-19 14:38:00
只有我觉得这成果超厉害的吗……
作者: ericyou0122 (羊)   2018-09-19 14:46:00
可能再几年,很多对战游戏就可以应用这种技术了吧
作者: theendstar (陨星)   2018-09-19 16:27:00
沉迷吃豆 无心打球好好笑

Links booklink

Contact Us: admin [ a t ] ucptt.com