马库斯再谈AlphaGo Zero:不是从零开始
文章来源:量子位公众号
纽约大学心理学和神经科学教授马库斯(Gary Marcus)坚信AlphaZero仍依赖于一些
人类知识,也曾在AlphaZero解读现场这样diss哈萨比斯。
可能觉得说得不够,近日,马库斯在arXiv发布了本月第二篇长文Innateness,
AlphaZero, and Artificial Intelligence,继续论证AlphaZero“可以在没有人类指
导的情况下训练到超过人类水准”的说法被夸大了。
“当代人工智能论文(通常)用了一个‘相当不错的’具体结果,对更广泛的主题做
出了绝对普遍和离谱的断言。”几个小时前,他在推特引用了这句话,说明自己怒怼的原
因。
在文章中,马库斯将AlphaGo、AlphaGo Zero、AlphaZero的归结成一种“神奇的AI工
程”,代号“AlphaStar”。
它是一种深层结构的混合,它不单利用深度学习人,也依赖于像树搜索这样的传统符
号技巧(symbolic technique)。
这到底是种怎样的神奇工程?马库斯从DeepMind如何构建Alpha家族的架构开始讲起
,量子位元将重点内容编译整理如下。
△ 马库斯
从零开始?
DeepMind在论文中说“一种纯强化学习方法是可行的,即使在最具挑战性的领域,它
也能训练到超过人类的水准,并且无需人类的案例和指导。除了基本规则外,没有任何领
域的基础知识。”
我不赞同。
他们系统中的很多方面延续了在之前在围棋程式上积累的研究,比如构建游戏程式中
常用的蒙特卡洛树搜索。这种技术可以用来评估动作和对策,在树状结构上快速得到测试
结果。
问题来了,蒙特卡洛树这种结构不是通过强化学习从资料中学习的。相反,它在
DeepMind的程式中是与生俱来的,根深蒂固地存在于每个反复运算的AlphaStar。
可以发现,DeepMind给出的卷积结构很精确,有很多下围棋的精确参数在里面,这不
是通过纯碎的强化学习学到的。并且,固有算法和知识的整合的取样机制不在
AlphaZero的实验范围内,这样可能会导致模型效果变差。
与其说AlphaGo是从白板开始学习,不如说是它在构建的开始就站在了巨人的肩膀上
。
完美资讯博弈之外
无论是围棋、国际象棋还是将棋,都属于完美资讯博弈。在这些游戏中,每个玩家可
以在任何时候看到已经发生或正在发生的游戏局势。正因如此,围棋、国际象棋和将棋问
题特别适合用大资料的方法“蛮力破解”。
问题来了,同样的机制能解决更广泛的问题吗?
AlphaGo Zero的解释中并没有说明应用范围,结果是否在其他挑战中通用也没有被提
及。事实是,即使在其他棋类游戏中,这套方法可能并不适用。
围棋程式需要的是强模式识别和树搜索技能,但其他游戏需要的能力可能不是这些。
文明系列的游戏需要在不确定的交通网络中做出决策,游戏强权外交需要形成联盟,字谜
游戏需要语言技能等等。
还有一个例子,Moravcik等人研究的AI DeepStack能在德扑中击败人类对手,就需要
一套相关但不同的先天结构,这无疑和完美资讯的单机Atari游戏需要的结构不同。
DeepMind想同时攻克这两种游戏,那他需要的是一套广泛的先天机制,而不是仅适用于单
一游戏的系统。
如何让这套先天机制适用于完美资讯博弈以外的游戏呢?我们接着往下看。
先天机制(Innate machinery)
仅仅有强化学习和蒙特卡洛树搜索这两种先天机制还不够,那么,如果要达到通用人
工智慧,我们需要怎样的结构呢?
在去年10月5号和LeCun的论证中,我有机会总结出一套计算原语组合:
物体的表示
架构化和代数表示
基于变量的操作
type-token区别
表示集合、位置、路径、轨迹、障碍和持久性的能力
表示物体的可视性的方法
时空邻近(Spatiotemporal contiguity)
因果关系
平移不变性
分析成本效益的能力
具备了上述的基础列表中的原语,可能自然就能拥有其他技能了。比如基于博弈的树
搜索可能是AlphaStar与生俱来的,但是人们可能学习如何做出分析,即使精确度差了些
,但至少可以把时间、因果关系和意图性结合在一起,具备成本效益分析的能力。
但上面列表仅仅是个初版,它应该有多长还是个未知数。这让我想起1994年Pinker提
出的一组的先天能力,里面甚至包括了恐惧、自我概念和性吸引力。这些都有些经验主义
,但每个特征都被认知和发展心理学、动物行为学和神经科学所支撑。
更重要的是,就目前的目的而言,这个领域确实存在一些可能的先天机制值得AI研究
者去思考,简单假设在默认情况下,包含很少或几乎不包含先天机制就让人满意了,往好
了说这叫保守。往坏了说,不经过思考就承诺从头开始重新学习可能也非常愚蠢,这是将
每个独立的AI系统置于需要重新概括数百万年来进化的初始位置。
最后,附论文连结:
https://arxiv.org/abs/1801.05667
— 完 —
http://sports.sina.com.cn/go/2018-01-20/doc-ifyquptv8188212.shtml
作者:
ddavid (谎言接线生)
2018-01-22 01:14:00这样讲吧,他说的其实是对的,但是从一开始两边切入点或者说对特定关键词的定义就不一样了,当然好像各说各话XD
作者:
birdy590 (Birdy)
2018-01-22 01:18:00用围棋知识可以下西洋棋? 那也是奇了
作者:
ddavid (谎言接线生)
2018-01-22 01:20:00他是说光用来训练的架构可能就得需要不一样其实说真的,这点目前来说是无法证伪只能各说各话的部分,因为AlphaGo已经屌打人类了,目前谁也不知道能不能研发出
作者:
birdy590 (Birdy)
2018-01-22 01:22:00其实这套方法的目标是完全资讯游戏坚持里面一定有什么围棋知识还蛮奇怪的
作者:
ddavid (谎言接线生)
2018-01-22 01:23:00单一架构可以把非完美资讯游戏也都吃下来
作者:
birdy590 (Birdy)
2018-01-22 01:24:00不然如何看待同一套方法可以通吃将棋西洋棋
作者:
ddavid (谎言接线生)
2018-01-22 01:24:00他的意思就是选取架构本身已经带有“相对适合架构”的资讯
作者:
birdy590 (Birdy)
2018-01-22 01:25:00真的要讲人类知识 也是“针对完全资讯游戏”的知识
作者:
ddavid (谎言接线生)
2018-01-22 01:25:00类,当然研究目标就是同样只用一套架构搞定
作者:
ddavid (谎言接线生)
2018-01-22 01:26:00所以说了啊,这目前基本上就是不能证伪的说法,只能大家都抱着自己的定义各说各话,事实上很难决定高下对错
作者:
birdy590 (Birdy)
2018-01-22 01:27:00但不代表一定要往这方向走
作者:
ddavid (谎言接线生)
2018-01-22 01:27:00因为通用人工智能本来就是人工智能的大目标,就算AlphaGo他们的目标也是如此,不然不会费心思又去测玩别的棋类、或者想同一架构转移到别的问题上
作者:
birdy590 (Birdy)
2018-01-22 01:28:00终极目标应该是尽量逼近围棋之神
作者:
ddavid (谎言接线生)
2018-01-22 01:29:00如果目标不是通用化,那下完围棋就可以封印计画了,解新问
作者:
birdy590 (Birdy)
2018-01-22 01:29:00但模仿人类跟这个目标其实没什么关系
作者:
birdy590 (Birdy)
2018-01-22 01:30:00通用化也包括了分类问题然后各个击破
作者:
ddavid (谎言接线生)
2018-01-22 01:30:00事实上算法的研究本来大目标就会摆在能更通用,往狭窄方
作者:
birdy590 (Birdy)
2018-01-22 01:31:00现实是解完问题就封印了没错啊 同一套方法要解星海应该是有困难 一定还要另外找突破点这问题本来就很难 前三十年都没啥进度还不够难吗
作者:
ddavid (谎言接线生)
2018-01-22 01:32:00所以这只是表示AlphaGo架构并不够通用,并不代表他们不想做出更通用的架构,实际情况跟目标当然会有差
作者:
ddavid (谎言接线生)
2018-01-22 18:34:00但是他们是“挑围棋”来测试这个架构,不是“只想解围棋”
作者:
birdy590 (Birdy)
2018-01-22 21:48:00重点在这个架构是针对完全资讯游戏 不是围棋看看原文里的质疑就知道问题在哪了