※ 引述《ousapas (komica123)》之铭言:
: https://www.youtube.com/watch?v=5iZlrBqDYPM
: Google DeepMind团队刚刚释出使用Deep Learning技术玩星海2画面
: 和传统战略游戏AI不同之处是
: 这个AI和人类一样是根据目前看到的画面做判断
: 而不是根据游戏内部数据
DeepMind 团队在做出 AlphaGo 之前就已经把 Atari 游戏都玩了一遍
大约有一半以上的游戏可以超越人类 Pro 的水平
远超过人类水平的像是打砖块
https://www.youtube.com/watch?v=V1eYniJ0Rnk
这种学习方法特殊的地方在于直接把画面丢进去学, 而且不需有人类指导.
以打砖块来说, 一开始是随机移动, 之后反馈分数强化类神经网络连结.
AI 不知道什么是砖块, 什么是球, 什么是板子, 也不知道要去接球.
它只知道在某种画面下应该下某个指令 (让板子往左或右) 很可能会提高分数.
当 AI 不停地玩, 看过的画面越多, 越知道要怎么反应.
神奇的地方在于训练几个小时之后, AI 知道开出一条隧道可以有效提高分数.
没有人教它, 这是它不断尝试各种移动方式后自己 "想" 出来的.
围棋变化太多, 一开始随机落子学习太慢, 所以 AlphaGo 先学业余高段的棋步.
以打砖块来说, 类似先告诉 AI 在哪些画面下应该往哪边动.
之后再透过自我对弈重复训练, 变化出各式各样的盘面 (画面) 尝试各种下一步,
反馈终盘的胜负让 AI 知道下哪些地方比较可能赢, 以后尽量下那些地方.
星海的变化也是很多, 要从随机指令开始学起恐怕也是很难.
完全随机会经历探测机乱逛不挖矿, 乱盖建筑物这种惨况很久一段时间.
所以我猜星海会从天梯高阶 RP 开始学, 工兵会先乖乖挖矿或是探路或 all in.
4BG, 2BG 接各种一波, 裸双, 双 VS, 光炮快攻等 RP 有的招数会先拿出来尝试.
透过自我对练了各种战术对应的方式衍生各种变化, 最后也会出现没看过的战术.
星海有个跟围棋差异很大的地方是因为有战争迷雾无法获得完全资讯.
这也可能是 DeepMind 为什么选择它来挑战的原因.