[新闻]击败星海争霸职业玩家的AlphaStar是在作弊?

楼主: zkowntu (冰封冷雁)   2019-01-28 15:52:22
“击败星海争霸II职业玩家”的 AlphaStar是在作弊?
机器之心 · 2小时前
DeepMind 击败人类职业玩家的方式与他们声称的 AI 使命,以及所声称的‘正确’方式
完全相反。
编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014),作者 机器之心编
辑部。36氪经授权转载。
DeepMind 的人工智能 AlphaStar 一战成名,击败两名人类职业选手。掌声和欢呼之余,
它也引起了一些质疑。
在前天 DeepMind 举办的 AMA 中,AlphaStar 专案领导者 Oriol Vinyals 和 David
Silver、职业玩家 LiquidTLO 与 LiquidMaNa 回答了一些疑问。不过困惑依然存在
近日,Aleksi Pietikäinen 在 Medium 上发表了文章,提出了几点疑问,在 Twitter
和 Reddit 上引起了极大的关注:
AlphaStar 使用了超人的速度,达到了超人的准确度。
DeepMind 称限制了 AI 的操作速度,不至于人类无法企及。但他们并未做到,且大
概率意识到自己没做到。
AlphaStar 拥有超人速度的原因可能是忘了考虑人类的无效点击。作者怀疑
DeepMind 想限制它使它更像人类,但是却没有做到。我们需要一些时间弄清楚这一点,
不过这也正是作者写本文的原因。
前谷歌大脑科学家 Denny Britz 也转载了此文章并在 Twitter 上表示:“有时候诚实和
谦虚一点,就像‘目前已经做得不错了,但我们还没有达到最优,还有很长的路要走。’
而不是‘看!那职业选手被击败了!!’,这样才能走得更远。
最让我烦恼的是,虽然 AlphaStar 在很多方面都有令人惊讶的结果,但其声称‘限制在
人类的操作水准’的解释让整个事件变得更像是在做公关,对于不熟悉机器学习和星海争
霸的人来说这就是误导。”
让我们看看 AlphaStar 究竟哪里“作弊”了,以下为机器之心对该文章的编译介绍:
首先,我必须声明我是门外汉。最近我一直追踪 AI 发展和星海争霸 2,不过我在这两个
领域都不是专家。如有错漏,请见谅。其次,AlphaStar 确实是一项巨大成就,我很期待
看到它以后的发展。
AlphaStar 的超人速度
AlphaStar 团队领导 David Silver:“AlphaStar 不能比人类选手反应速度快,也不会
比人类选手执行更多点击。”
2018 年,来自芬兰的虫族选手“Serral”Joona Sotala 制霸星海 2。他是目前的世界冠
军,且他在当年的九场大型赛事中取得了七次冠军,在星海 2 历史上是史无前例的选手
。他的操作速度非常快,可能是世界上最快的星海 2 选手。
在 WCS2018 上,Serral 的毒爆虫让局势逆转。
在比赛中,我们可以看到 Serral 的 APM(actions per minute)。APM 基本上表示选手
点击鼠标和键盘的速度。Serral 无法长时间保持 500 APM。视频中有一次 800 APM 的爆
发,但只持续了一秒,而且很可能是因为无效点击。
世界上速度最快的人类选手能够保持 500 APM 已经很不错了,而 AlphaStar 一度飙到
1500+。这种非人类的 1000+ APM 的速度竟然持续了 5 秒,而且都是有意义的动作。
一分钟 1500 个动作意味着一秒 25 个动作。人类是无法做到的。我还要提醒大家,在星
海 2 这样的游戏中,5 秒是很长一段时间,尤其是在大战的开始。
如果比赛前 5 秒的超人执行速度使 AI 占了上风,那么它以大幅领先优势获取胜利可能
是由于雪球效应。
一位解说指出平均 APM 仍是可接受的,但很明显这种持续时间并非人类所能为。
AlphaStar 的无效点击、APM 和外科手术般的精准打击
大部分人类都会出现无效点击。无意义的点击并没有什么用。例如,人类选手在移动军队
时,可能会点击目的地不止一次。这有什么作用呢?并没有。军队不会因为你多点击了几
下就走得更快。那么人类为什么还要多点击呢?原因如下:
1. 无效点击是人类想要加快操作速度的自然结果。
2. 帮助活跃手指肌肉。
我们前面说过 Serral 最令人震惊的不是他的速度而是准确度。Serral 不只是具备高
APM,还具备非常高的 effective-APM(下文中简略为 EAPM),即仅将有效动作计算在
内的 APM。
一位前职业玩家在看到 Serral 的 EAPM 后发推表示震惊:
Serral 的 EAPM 是 344,这实际上已经是前所未有了。APM 和 EAPM 的区别也涉及
AlphaStar。如果 AlphaStar 没有无效动作,这是不是说明它的巅峰 EAPM 等于巅峰
APM?这样的话 1000+的爆发更加非人类了。
我们还需要考虑 AlphaStar 具备完美的准确率,它的性能好到“荒谬”的程度。它总能
点击到想去的地方,而人类会有误点击。AlphaStar 可能不会一直使用巅峰状态,但在关
键时刻,它的速度是世界最快选手的 4 倍,而准确率更是人类专业玩家想都不敢想的。
星海 2 中存在一个共识:AlphaStar 的执行序列人类无法复制。其速度和准确率突破了
人类现有极限。
AlphaStar 只能执行人类选手可以复制的动作?David Silver 不认同这种看法。
正确做事 vs 快速做事
AlphaStar 的首席设计工程师 Oriol Vinyals:我们正在努力构建拥有人类惊人学习能力
的智慧系统,因此确实需要让我们的系统以尽可能“像人类一样”的方式学习。
例如,通过非常高的 APM,将游戏推向极限可能听起来很酷,但这并不能真正帮助我们衡
量智慧体的能力和进步,使得基准测试毫无用处。
为什么 DeepMind 想限制智慧体像人类一样玩游戏?为什么不让它放飞自我?原因是星海
争霸 2 是一个可以通过完美操作攻破的游戏。
在这个 2011 年的视频(https://www.youtube.com/watch?v=IKVFZ28ybQs)中,AI 攻击
一组坦克,其中一些小狗实现了完美的微操。例如,在受到坦克攻击时让周围的小狗都躲
开。
通常情况下,小狗不能对坦克做出太大 伤害,但由于 AI 完美的微操,它们变得更加致
命,能够以最小的损失摧毁坦克。
当单元控制足够好时,AI 甚至不需要学习策略。而在没有这种微操时,100 只小狗冲进
20 架坦克中只能摧毁两架坦克。
并不一定对创建可以简单击败星海争霸专业玩家的 AI 感兴趣,而是希望将这个项目作为
推进整个 AI 研究的垫脚石。
虽然这个研究项目的重要成员声称具有人类极限限制,但事实上智慧体非常明显地打破了
这些限制,尤其是当它利用超人速度的操作来赢得游戏时,这是完全无法让人满意的。
AlphaStar 能够在单位控制方面超越人类玩家,当游戏开发者仔细平衡游戏时,肯定不会
去考虑这一点。这种非人类级别的控制可以模糊人工智能学习的任何战略思维评估。
它甚至可以使战略思维变得完全没有必要。这与陷入局部极大值不同。当 AI 以非人类级
别的速度和准确率玩游戏时,滥用卓越的控制能力很可能变成了玩游戏时的最佳策略,这
听起来有些令人失望。
这是专业人士在以 1-5 的比分输掉比赛之后所说的 AI 优点和缺点:
MaNa:它最强的地方显然是单位控制。在双方兵力数量相当的情况下,人工智能赢得了所
有比赛。在仅有的几场比赛中我们能够看到的缺点是它对于技术的顽固态度。
AlphaStar 有信心赢得战术上的胜利,却几乎没有做任何其它事情,最终在现场比赛中也
没有获得胜利。我没有看到太多决策的迹象,所以我说人工智能是在靠操作获得胜利。
在 DeepMind 的 Replay 讲解和现场比赛之后,星海争霸玩家群体几乎一致认为
AlphaStar 几乎完全是因为超人的速度、反应时间和准确性而获得优势的。
与之对抗的职业选手似乎也同意。有一个 DeepMind 团队的成员在职业玩家测试它之前与
AlphaStar 进行了比赛。他估计也同意这种观点。
David Silver 和 Oriol Vinyal 不断重复声称 AlphaStar 如何能够完成人类可以做的事
情,但正如我们已经看到的那样,这根本不是真的。
在这个视频中关于“AlphaStar 如何能够完成人类可以做的事情”的描述非常粗略。
为什么 DeepMind 允许 AlphaStar 拥有超人的操作能力
现在让我们回顾一下这篇文章的主要观点:
我们知道了 APM、EAPM 和无效点击等概念;
我们对人类玩家操作能力的上限有一个粗略的了解;
我们知道了 AlphaStar 的游戏玩法与开发人员声称允许执行的游戏玩法完全矛盾;
我们的一个共识是 AlphaStar 通过超人的控制能力赢得了比赛,甚至不需要卓越的
战略思维;
我们知道,DeepMind 的目标不是创建一个只能微操的 AI,或者以从未打算过的方式
滥用技术;
令人难以置信的是,在 DeepMind 的星海争霸 AI 团队中没有人质疑爆发的 1500+
APM 是否对于人类而言可及。他们的研究人员可能比我更了解这个游戏。他们正与拥有星
海争霸系列 IP 的游戏公司暴雪密切合作,使 AI 尽可能接近人类才符合他们的利益(参
见本文前面提到的 David Silver 和 Oriol Vinyals 的提到的前几个要点和使命陈述)

这是我对事情真相的猜测:
1)在专案一开始,DeepMind 同意对 AlphaStar 施加严格的 APM 限制。因此 AI 不会在
演示中出现超人的操作速度。如果让我来设计这些限制,可能包含如下几项:
整场比赛的平均 APM;
在短时间内爆发的最大 APM。我认为每秒加上 4-6 次点击是合理的。还记得
Serral 和他的 344 EAPM 超越了竞争对手?这还不到每秒 6 次点击。与 MaNa 对战的
AlphaStar 版本在连续的时间段内每秒可以执行 25 次点击。这比人类可以做到的最快
无效点击速度要快得多,我认为原始限制是不允许这样做的。
点击之间的最短间隔。即使 AI 的速度爆发被限制,它仍然可以在当前所处时间段的
某个时刻执行几乎暂态的动作并且仍然以非人类的方式执行。人类显然无法做到这一点。
有些人会主张还可以在准确率上添加随机性来进行限制,但我怀疑这会过多地阻碍训练的
速度。
2)接下来,DeepMind 会下载数以千计高排名的业余游戏视频并开始模仿学习。在这个阶
段,智慧体只是试图模仿人类在游戏中所做的事情。
3)智慧体采用无效点击的行为。这很可能是因为人类玩家在游戏过程中使用了这种点击
行为。几乎可以肯定,这是人类执行的最单调重复的行为模式,因此很可能深深扎根于智
慧体的行为中。
4)AlphaStar 爆发的最大 APM 受限于人类进行无效点击的速度。由于 AlphaStar 执行
的大多数操作都是无效点击,因此没有足够的 APM 可用于在战斗中进行实验。如果智慧
体未进行实验,则无法学习。以下是其中一位开发人员昨天在 AMA 上所说的话:
AlphaStar 的首席设计工程师 Oriol Vinyals:训练人工智能玩低 APM 非常有趣。在早
期,我们让智慧体以非常低的 APM 进行训练,但它们根本没有微操。
5)为了加速开发,他们改变 APM 限制以允许高速爆发。以下是 AlphaStar 在演示中使
用的 APM 限制:
AlphaStar 的首席设计工程师 Oriol Vinyals:尤其是,我们在 5 秒的时间段内设置的
最大 APM 为 600,在 15 秒内最大为 400,30 秒内最大为 320,在 60 秒内最大为 300
。如果智慧体在此期间执行更多的操作,我们会删除/忽略这些操作。这些是根据人类统
计资料设置的。
这相当于通过统计数字作弊。乍一看,对星海不太了解的人可能会觉得这样做很合理,但
它会允许我们之前讨论的超人速度爆发以及超人鼠标精度,这是不太合理的。
人类进行无效点击的速度是有限的。最典型的无效点击形式是对一个单位发出移动或攻击
命令。这是通过用鼠标点击地图某个位置来完成的。
请尽你最快的速度点击鼠标试试。智慧体学会了这种无效点击。它不会点击地太快,因为
它模仿的人类无法点击太快。而能让它达到超人速度的额外 APM 可以被认为是“自由的
”APM,它可以用于更多次尝试。
6)自由的 APM 被用于在交战中进行实验。这种交互在训练中经常发生。AlphaStar 开始
学习新的行为以带来更好的结果,它开始摆脱经常发生的无效点击。
7)如果智慧体学会了真正有用的动作,为什么 DeepMind 不回到最初对 APM 更苛刻、更
人性化的限制呢?他们肯定意识到了其智慧体正在执行超人的动作。
星海社区一致认为 AlphaStar 拥有超人的微操技术。人类专家在 ama 中表示,
AlphaStar 的最大优势不是其单位控制,而其最大的弱点也不是战略思维。
DeepMind 团队中玩星海的人肯定也是这么想的,理由是因为智慧体偶尔还是会进行无效
点击。
虽然在玩游戏的大部分时间里,它能直接执行有效动作,但它还是经常做无效点击。这一
点在它与 MaNa 的比赛中很明显,该智慧体在 800APM 上无意义地点击移动命令。
尽管这完全没必要,而且消耗了它的 APM 资源,但它仍不忘记这么干。无效点击会在大
规模战争中对智慧体造成很大伤害,它的 APM 上限可能会被修改以使它在这些对抗中表
现良好。
不要在意这些细节?
现在你明白是怎么回事儿了。我甚至怀疑人工智能无法忘记它在模仿人类玩家过程中学习
到的无效点击行为,因而 DeepMind 不得不修改 APM 上限以允许实验进行。
这么做的缺点就是人工智能有了超越人类能力的操作次数,从而导致 AI 以超越人类的手
速,不用战术战略就能打败人类。
我们对 APM 如此关心,是因为 DeepMind 击败人类职业玩家的方式与他们所希望的方式
,以及所声称的“正确”方式完全相反。而 DeepMind 放出的游戏 APM 统计图也让我们
对此有所洞悉:
这种统计方式似乎是在误导不熟悉星海争霸 2 的人。它似乎在把 AlphaStar 的 APM 描
述为合理的。我们可以看看 MaNa 的资料,尽管他的 APM 均值比 AlphaStar 要高,但在
最高值上 AI 远高于人类,更不用说在高 APM 时人类操作的有效性了。
请注意:MaNa 的峰值是 750,而 AlphaStar 高于 1500。想像一下,MaNa 的 750 包含
50% 的无效点击,而 AlphaStar 的 EAPM 几乎完美……
至于 TLO 的“逆天”手速,星海争霸主播黄旭东和孙一峰在直播时认为他明显使用了快
速键盘(通过特殊品牌的键盘热键功能,设置某单个快速键/复合键代替多次鼠标点击)

快速键盘可以让人类的 APM 达到不可理喻的高度,比如 15,000 多——但并不会提升你
的有效操作。
然而,你用快速键盘能做的唯一一件事就是无效施法。出于某些莫名的原因,TLO 在滥用
这个技术,这种操作的统计结果让不熟悉星海争霸的人看起来好像 AlphaStar 的 APM 是
在合理范围之内的。
DeepMind 的介绍性博客并没有提到 TLO 荒谬数字的原因,如果没有解释,这个数字就不
应该被列在图中。
这简直是在统计数字上作弊。
可以说有局限性,可以说潜力巨大
AlphaStar 星海争霸 2 的人机大战吸引了人工智能领域里很多专业人士的关注,它对于
AI 技术的发展会有什么样的启示。比赛过后,Facebook 研究科学家田渊栋在知乎上表
示:
昨天晚上抽空看了一下 DM 的 demonstration 还有 live 的比赛。确实做得很好。
我星海水准很烂,星海 2 也玩得不多,相信大家已经看到了大量的游戏评论,我就跳过
了。
整个系统和 AlphaGo 第一版很接近,都是先用监督学习学会一个相当不错的策略,然后
用自对弈(self-play)加强。当然有两个关键的不同点,其一是自对弈用的是
population-based 以防止掉进局部解(他们之前在 Quake 3 上也用到了)。
其二是在 network 里面加了一些最近发表的神经网络模型,以加强 AI 对于游戏全域和
历史长程关联性的建模能力(比如说用 transformer,比如说让 AI 可以一下子看到全部
可见区域),这两点对于不完全资讯游戏来说是至关重要的。
因为不完全资讯游戏只能通过点滴的历史积累来估计出当前的状态,尤其是对手的状态,
多一点历史记录就能学得更好些,这个我们做过一些即时战略游戏(MiniRTS)的研究,
很有体会。
星海一个很大的问题是输出的行动空间(action space)巨大无比,我记得他们在一开始
做的基线(baseline)算法里面用了 language model 输出精确到单位的行动(
unit-level action),但在 DM 的 blog 里面却说每个时间节点上只有 10 到 26 种不
同的合法行动。
然后在他们的 demonstration 里面“considered Build/Train”下面有 33 个输出。这
些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略(比如说通过聚类
的方法),然后在训练的时候直接调用这些子策略就行了。但具体细节不明,期待完整论
文出来。
另外,这次 AlphaStar 没有用基于模型进行规划的办法,目前看起来是完全用经典的
off-policy actor-critic 加大量 CPU 硬来,就有这样的效果。
关于 AlphaStar 输掉的那局。实话说被简单的空投战术重复几次给拖死了,让人大跌眼
镜。联想到 OpenAI Five 对职业选手也输了,主要还是应变能力不强,无法对新战术新
模式及时建模。
围棋因为游戏规则和双方资讯完全透明,下棋的任何一方都可以用蒙特卡罗树搜索(MCTS
)对当前局面进行临时建模和分析,但不完全资讯博弈因为得要估计对手情况就没有那么
简单。
AlphaStar 目前似乎是无模型的(model-free,Reddit 上的解答确认了这一点)。我不
知道是不是在进行充分的训练之后,纯粹无模型(model-free)的方法可以完全达到树搜
索的效果——但至少我们能看到在围棋上。
就算是用相当好的模型比如说 OpenGo,要是每盘都不用搜索而只用策略网络的最大概率
值来落子,还是会经常犯错。
所以说,若是在不完全资讯博弈里面用上了基于模型(model-based)的方法,并且能够
稳定地强于无模型(model-free)方法,那在算法上会是一个比较大的突破。
所以其实深度强化学习还是有很多很多很多没有解决的问题,你可以说它有很大局限性,
也可以说它潜力巨大。
在这之上,更难的一个问题是如何让 AI 具有高层推理的能力。人对将来的预测是非常灵
活且极为稳定的,可能会想到一秒后,也可能会想到一年后,而且对新模式可以很快概括
总结并加以利用。
但真写点算法去模仿人的预测能力,就会出现各种各样的问题,比如说对没探索过的地
方过于自信,多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活
的,目前还是研究热点,没有一个统一的答案。
对应到星海上,人在全域战略上的优化效率要远远高于 AlphaStar,比如说一句“造两个
凤凰去灭了那个来空投的棱镜”,可能就顶 AlphaStar 自对弈几天几夜。
这个效率的差距(可能是指数级的)是否可以用大量计算资源去填补,会是和顶尖高手对
局胜败的关键所在。
https://www.36kr.com/p/5174690
作者: badend8769 (坏结局)   2018-01-28 15:52:00
太长
作者: blargelp (bernie)   2019-01-28 15:55:00
长文不付懒人包in2019= =
作者: weltschmerz (威尔特斯克˙闷死)   2019-01-28 15:55:00
转贴还不编辑 上面重复一样的段落
作者: gcobc36557 (比目鱼)   2019-01-28 15:56:00
太长
作者: akun710191 (akun)   2019-01-28 15:56:00
转文怎么转得这么烂==
作者: Shift2 (小老鼠)   2019-01-28 15:57:00
整理一下好不好
作者: blargelp (bernie)   2019-01-28 15:57:00
反正大概就是人类了不起几百APM,而且还参杂无笑效的。AI说已经有限制了APM但还是可以破千,且全部有效?
作者: gmoz ( This can't do that. )   2019-01-28 15:58:00
懒人包:AI的有效APM(假定他没有无效点击)高达1000+超过人类极限
作者: arrenwu (键盘的战鬼)   2019-01-28 15:59:00
又长又无聊 = = AS那也不是作弊 就操作比人类强然后DeepMind做这个实验也不是为了要证明AS玩游戏会赢人而是想知道在战斗策略规划上AS有没有可能展现高智能毕竟只是玩这游戏玩赢人类有啥屁用?
作者: spfy (spfy)   2019-01-28 16:00:00
里面好多重复的废话 你直接转中国文章没处理吧
作者: gigayaya (gigayaya)   2019-01-28 16:00:00
AI:朱雀 人类:鲁鲁修
作者: y124421473 (ˊ_>ˋ)   2019-01-28 16:00:00
打那么多谁他妈看的完
作者: gigayaya (gigayaya)   2019-01-28 16:01:00
鲁鲁修:这不是人类办的到的事情 朱雀:我来吧 !?
作者: spfy (spfy)   2019-01-28 16:01:00
段放123...N页 还会塞很多废话...
作者: hdjj (hdjj)   2019-01-28 16:07:00
开头一句“首先我必须声明我是门外汉”,然后下面打了一堆这不就是说自己是在发废文吗?XD
作者: siro0207 (希罗)   2019-01-28 16:10:00
超多废话...
作者: jasmine2015   2019-01-28 16:12:00
简单来讲就是人类的APM其实很大一部分是无意义动作但是开发人员忽略这点 把AI的APM上限调太高 我是觉得不如让AI挑战操作不那么吃重的RST 例如英雄连之类的
作者: durg (........)   2019-01-28 16:13:00
确实是门外汉讲废话。
作者: sth7667 (豪)   2019-01-28 16:15:00
里面那影片看了大概就懂意思了,那种操作人类不可能办到
作者: www8787 (进击derLoser®)   2019-01-28 16:19:00
简单说就像打大老二比牌技时 电脑的吐胚可以赢葫芦
作者: siro0207 (希罗)   2019-01-28 16:20:00
简单来说 这些比赛原本的目的应该是要测试AI能不能制定
作者: jupto (op)   2019-01-28 16:20:00
纯粹是开发团队给人类选手一个可以嘴的空间吧
作者: alonelykid (咩咩)   2019-01-28 16:21:00
其实只有操作强是失败的 早就有悍马2000这种神级AI
作者: siro0207 (希罗)   2019-01-28 16:21:00
战略或战术来获胜 而不是靠单纯的微操
作者: iwinlottery (我民乐透头彩)   2019-01-28 16:21:00
这的确要限制啊
作者: zseineo (Zany)   2019-01-28 16:22:00
呃这个AI学会了营运好吗,只是他顺便练出了超强的操作
作者: www8787 (进击derLoser®)   2019-01-28 16:22:00
要让电脑的兔胚比人类葫芦强 可以 但那失去比牌技的意义
作者: alonelykid (咩咩)   2019-01-28 16:22:00
这种感觉比较想跟电脑比打字速度而不是写文章
作者: zseineo (Zany)   2019-01-28 16:23:00
然后他的目的嘛,可以去星海板看Jotarun大的文
作者: arrenwu (键盘的战鬼)   2019-01-28 16:23:00
AS确实学会了营运,但只是要做到这件事情写个script就行
作者: siro0207 (希罗)   2019-01-28 16:27:00
毕竟这种微操在现实战争面来看非常的不现实 就像叫一群步兵冲进敌人的砲兵阵列 然后指挥官透过无线电指挥每个士兵 让敌人的每发砲弹都只击中一个士兵
作者: jupto (op)   2019-01-28 16:29:00
整体来说AS的微操已经被限制在哪里可实现的范围 只是人类还有有失误与耐久的限制
作者: siro0207 (希罗)   2019-01-28 16:30:00
或者是每发砲弹都打不中这样
作者: jupto (op)   2019-01-28 16:31:00
至于没有加入这两个限制 原因是技术 开发者失误 还是其他原因就不知了
作者: hdjj (hdjj)   2019-01-28 16:32:00
在现实战争面来看很现实啊,有一种东西叫无人机
作者: zseineo (Zany)   2019-01-28 16:32:00
因为目的就不是做一个彷人类会失误的AI然后AS的高速操作人类是作不到的
作者: hdjj (hdjj)   2019-01-28 16:34:00
而且现代军队火力操纵也大多由电脑来控制,人类只需下令开火
作者: siro0207 (希罗)   2019-01-28 16:35:00
我的例子就不是无人机啊如果今天配给你的士兵只是一般人 那你这AI不就垃圾
作者: amsmsk (449)   2019-01-28 16:38:00
操作散小狗有读取到后台讯息了 as是看现场应对这能比吗这作者知道自己讲啥吗
作者: zseineo (Zany)   2019-01-28 16:38:00
啊就重学啊XD 今天DM给他的APM限制就这样,他就练出这种战术啊
作者: arrenwu (键盘的战鬼)   2019-01-28 16:40:00
我发了个懒人包 大家有兴趣的可以看看
作者: dimw   2019-01-28 16:43:00
感觉和以前的深蓝一样 不知道之后要干嘛了
作者: jupto (op)   2019-01-28 16:43:00
其实最好的方式就是把决策与操控做成两个独立的系统 操控提供决策许多战术包 决策负责判断使用哪个战术包 这样只要依照比赛对手条件调整战术包的数量与参数就可以达到限制操作的目的
作者: amaranth (liann)   2019-01-28 16:44:00
简单讲就是电脑可以操纵部队开无双来借此获胜,可是研究的目的是希望能学习用战术/策略取胜
作者: arrenwu (键盘的战鬼)   2019-01-28 16:44:00
其实我还满相信这文章某个论点,就是限制APM的话AS可能没办法拿出来展示
作者: dimw   2019-01-28 16:45:00
回归AI目的 在过去大概可以说是想模拟人类的大脑现在的话大概是想突破奇点 不过不管哪个实际上都还很遥远
作者: bahamutjr (AT)   2019-01-28 16:46:00
中间一段说学人类的关西 所以有无效操作 才需要放宽APM的限制 后面又说EAPM完美 没有无效操作
作者: jupto (op)   2019-01-28 16:48:00
我倒是认为AI其实早就离这些目的一步之遥 只人类永远不敢去打开那道大门
作者: s81048112 (**********已加密)   2019-01-28 16:48:00
AI干嘛要去仿人类失误?
作者: arrenwu (键盘的战鬼)   2019-01-28 16:48:00
一步之遥...想太多囉
作者: aegisWIsL (多多走路)   2019-01-28 16:48:00
太长
作者: arrenwu (键盘的战鬼)   2019-01-28 16:50:00
参考这个 http://rail.eecs.berkeley.edu/deeprlcourse/Reinforcement Learning 现在还一堆问题有很多做法看起来就像蒙对的一样现在AI之所以变强是因为人类帮他简化问题并想方法找出正确的自我提升方向。这跟强AI是完全不同的东西
作者: dimw   2019-01-28 16:54:00
人类在学习成长的过程中 会犯的错误大多是有意义的当然我是不敢说这种有意义的错误会是智慧的必要条件
作者: jupto (op)   2019-01-28 16:55:00
我倒认为这只是解释人类目前连表达出自己想要什么都一大堆bug需要修正
作者: zseineo (Zany)   2019-01-28 16:55:00
上面有些失误是在讲肌肉耐力或点击失误这种东西
作者: lturtsamuel (港都都教授)   2019-01-28 16:56:00
不是AI要模彷人类失误 而是AI的对手人类本来就会失误而这个游戏本来就是这样去设计平衡性的用一个不失误的AI去打败会失误的人类 能说它比人类更"智慧"吗?这里所谓的人类失误也不是在智慧上的失误 而是肌肉控制或反应时间导致的
作者: arrenwu (键盘的战鬼)   2019-01-28 16:59:00
我还是觉得现在不用急着限制APM 因为人类还可以用策略赢
作者: lturtsamuel (港都都教授)   2019-01-28 17:01:00
不限APM 它就是一直往高操作兵种的方向去学习然后用超越平衡的打法去玩游戏 我是觉得这样练出来的
作者: arrenwu (键盘的战鬼)   2019-01-28 17:02:00
但我觉得要先求有,至少目前要让他能够战胜人类
作者: lturtsamuel (港都都教授)   2019-01-28 17:02:00
结果还挺歪的啦
作者: dieorrun (Tide)   2019-01-28 17:02:00
战胜又没意义 只是要赢的话方法一堆
作者: arrenwu (键盘的战鬼)   2019-01-28 17:03:00
问题是现在他们的实验成果没办法战胜人类啊
作者: jupto (op)   2019-01-28 17:03:00
现在不就是限制了APM电脑还是靠操作就屌打人类 才会产生AS作弊一说?
作者: zseineo (Zany)   2019-01-28 17:03:00
我觉得要弄懂DM的目的而不是自己定义AI的成功与否啦XD
作者: lturtsamuel (港都都教授)   2019-01-28 17:04:00
这不就像拳击打不赢就吃禁药一样 吃禁药打赢了技术会进步吗我是觉得不吃禁药打输也比吃禁药打赢学到更多啦它不是打赢职业了吗 虽然是二线的没错 但不能说人类打100%会赢吧 serral打二线都不敢说自己100%会赢了
作者: arrenwu (键盘的战鬼)   2019-01-28 17:06:00
我是自己猜如果APM限制得更严苛 可能会没办法DEMO你可以看最近那个现场跟Mana的表演赛,他不会打空投他不会打空投的原因是他根本不了解要怎么对抗
作者: lturtsamuel (港都都教授)   2019-01-28 17:06:00
我也是这样想 也许低APM那的区域数学性质很难收敛
作者: arrenwu (键盘的战鬼)   2019-01-28 17:07:00
这其实很妙喔 因为神族对抗的rp 空投非常常见
作者: zseineo (Zany)   2019-01-28 17:07:00
目前AS有很多不同的版本,总战绩是10-1
作者: lturtsamuel (港都都教授)   2019-01-28 17:07:00
那它的方向应该是想办法学会守空投 不是变成APM怪物
作者: lturtsamuel (港都都教授)   2019-01-28 17:09:00
因为目前技术还没跟上啊 不然咧@@
作者: arrenwu (键盘的战鬼)   2019-01-28 17:09:00
我的看法是这暗示要理解"1只凤凰可以解决棱镜"这件事情并没有很容易
作者: dieorrun (Tide)   2019-01-28 17:09:00
所以到底是要怎样 就成果和大家预期的不一样啊
作者: arnold3 (no)   2019-01-28 17:09:00
我玩即时战略那么久了 还真没遇过打不赢的ai
作者: arrenwu (键盘的战鬼)   2019-01-28 17:10:00
所以我觉得先让他们可以在没有APM限制下让AS学会所有基本概念比较...好啦XD
作者: dieorrun (Tide)   2019-01-28 17:10:00
甚至有点练错方向了 问题在哪
作者: arnold3 (no)   2019-01-28 17:10:00
主要还是打几场没找到对电脑的打法而已
作者: theyolf (qq)   2019-01-28 17:10:00
这种AI跟以前那种超级电脑有啥不同? 那个也叫营运吗
作者: zseineo (Zany)   2019-01-28 17:10:00
就大家要的AI跟DM要的都不一样啊,其实都在鸡同鸭讲
作者: lturtsamuel (港都都教授)   2019-01-28 17:10:00
我也觉得 目前的AI要理解空军克棱镜 它的过程一定跟人类差很多
作者: arrenwu (键盘的战鬼)   2019-01-28 17:11:00
我不太相信大家要的AI跟DM不一样啦XD
作者: lturtsamuel (港都都教授)   2019-01-28 17:11:00
假如我现在突然拥有超越serral的手速 我相信我对游戏的理解一定会歪掉
作者: arrenwu (键盘的战鬼)   2019-01-28 17:12:00
人类的学习能力本来就是比较快的 这倒是一直都没有疑问
作者: lturtsamuel (港都都教授)   2019-01-28 17:12:00
例如追猎克不朽
作者: lturtsamuel (港都都教授)   2019-01-28 17:13:00
我是觉得可以用高手速来pretrain 然后慢慢调低不过这作法这么直觉 绝对有人做过 不知结果如何
作者: jupto (op)   2019-01-28 17:26:00
最简单就是分解成决策与操作两个系统 其实人类大脑也是这样在搞 只是这样可能就无法完全突破奇点
作者: hitmd (hitmd)   2019-01-28 18:17:00
我以为 AI是每个单位都独立自己可以行动,还可以掌握配合
作者: jupto (op)   2019-01-28 18:24:00
其实楼上说的这些 游戏内建的引擎已经处理了不少
作者: WindSucker (抽风者)   2019-01-28 19:06:00
输不起
作者: notneme159   2019-01-28 19:32:00
太长 整理一下吧
作者: ge781221   2019-01-28 20:06:00
拿AI跟人类比本来就没啥意义,会这样比只是想凸显AI会学习战术,但是不管你再加上诸多限制,AI的操作始终有优势,这种优势在游戏内是会一直扩大的,再说了比赛之所以好看是因为人类可能有失误,选手如何降低失误甚至是失误之后怎么挽回,都是让比赛精彩的地方
作者: yadohime (君莫愁)   2019-01-28 20:21:00
简单说就AI微操控兵就车翻你了就没必要去想战略,而制作者真正要的是战略战术的层次。讲得明白点,输了就输了不用东拉西扯真要有效应该让AI对AI ,完全不限制性能,在此之上再发展战略跟战术

Links booklink

Contact Us: admin [ a t ] ucptt.com