[新闻] AI科学家详解AlphaGo Zero的伟大与局限 qweewqq PTT批踢踢实业坊

[新闻] AI科学家详解AlphaGo Zero的伟大与局限

楼主: qweewqq (é¢¨ä¸€æ¨£çš„ç”·å) 2017-10-21 19:13:40

AI科学家详解AlphaGo Zero的伟大与局限
　（文章来源：量子位元报导 | 公众号 QbitAI 作者：夏乙李根发自凹非寺）
　　“人类太多余了。”
　　面对无师自通碾压一切前辈的AlphaGo Zero，柯洁说出了这样一句话。
　如果你无法理解柯洁的绝望，请先跟着量子位回顾上一集：
　　今年5月，20岁生日还未到的世界围棋第一人柯洁，在乌镇0：3败给了DeepMind的人
工智慧程式AlphaGo，当时的版本叫做Master，就是今年年初在网上60：0挑落中日韩高手
的那个神秘AI。
　　AlphaGo Zero骤然出现，可以说是在柯洁快要被人类对手和迷妹们治愈的伤口上，撒
了一大把胡椒粉。
　　被震动的不止柯洁，在DeepMind的Nature论文公布之后，悲观、甚至恐慌的情绪，在
大众之间蔓延著，甚至有媒体一本正经地探讨“未来是终结者还是骇客帝国”。
　　于是，不少认真读了论文的人工智能“圈内人”纷纷站出来，为这次技术进展“去魅
”。
　　无师自通？
　　首当其冲的问题就是：在AlphaGo Zero下棋的过程中，人类知识和经验真的一点用都
没有吗？
　　在这一版本的AlphaGo中，虽说人类的知识和经验没多大作用，但也不至于“多余”
。
　　在Zero下棋的过程中，并没有从人类的对局经验和资料中进行学习，但这个算法依
然需要人类向它灌输围棋的规则：哪些地方可以落子、怎样才算获胜等等。
　　剩下的，就由AI自己来搞定了。
　　对于这个话题，鲜有人比旷视科技首席科学家孙剑更有发言权了，因为AlphaGo Zero
里面最核心使用的技术ResNet，正是孙剑在微软亚洲研究院时期的发明。
孙剑孙剑
　　孙剑也在接受量子位等媒体采访的过程中，对AlphaGo Zero的“无师自通”作出了评
价，他认为这个说法“对，也不对”，并且表示“伟大与局限并存”。
　　究竟对不对，还是取决于怎样定义无师自通，从哪个角度来看。
　　和之前三版AlphaGo相比，这一版去掉了人类教授棋谱的过程，在训练过程最开始的
时候，AI落子完全是随机的，AlphaGo团队的负责人David Silver透露，它一开始甚至会
把开局第一手下在1-1。在和自己对弈的过程中，算法才逐渐掌握了胜利的秘诀。
　　从这个角度来看，Zero的确可以说是第一次做到了无师自通，也正是出于这个原因，
DeepMind这篇Nature论文才能引起这么多圈内人关注。
　　但要说它是“无监督学习”，就有点“不对”。孙剑说：“如果仔细看这个系统，它
还是有监督的。”它的监督不是来自棋谱，而是围棋规则所决定的最后谁输谁赢这个信号
。
　　“从这个意义上说，它不是百分之百绝对的无师自通，而是通过这个规则所带来的监
督信号，它是一种非常弱监督的增强学习，它不是完全的无师自通。”
　　孙剑还进一步强调：“但是同时这种无师自通在很多AI落地上也存在一些局限，因为
严格意义上讲，围棋规则和判定棋局输赢也是一种监督信号，所以有人说人类无用、或者
说机器可以自己产生认知，都是对AlphaGo Zero错误理解。”
　　离全面碾压人类有多远？
　　Zero发布之后，媒体关切地询问“这个算法以后会用在哪些其他领域”，网友认真
地担心“这个AI会不会在各个领域全面碾压人类”。
　　对于Zero算法的未来发展，DeepMind联合创始人哈萨比斯介绍说，AlphaGo团队的
成员都已经转移到其他团队中，正在尝试将这项技术用到其他领域，“最终，我们想用这
样的算法突破，来解决真实世界中各种各样紧迫的问题。”
　　DeepMind期待Zero解决的，是“其他结构性问题”，他们在博客中特别列举出几项：
蛋白质折叠、降低能耗、寻找革命性的新材料。
　　哈萨比斯说AlphaGo可以看做一个在复杂资料中进行搜索的机器，除了博客中提到几
项，新药发现、量子化学、粒子物理学也是AlphaGo可能大展拳脚的领域。
　　不过，究竟哪些领域可以扩展、哪些领域不行呢？
　　孙剑说要解释AlphaGo算法能扩展到哪些领域，需要先了解它现在所解决的问题—
—围棋——具有哪些特性。
　　首先，它没有噪声，是能够完美重现的算法；
　　其次，围棋中的资讯是完全可观测的，不像在麻将、扑克里，对手的信息观测不到；
　　最后也是最重要的一点，是围棋对局可以用电脑迅速类比，很快地输出输赢信号。
　　基于对围棋这个领域特性的理解，提到用AlphaGo算法来发现新药，孙剑是持怀疑
态度的。
　　他说，发现新药和下围棋之间有一个非常显著的区别，就是“输赢信号”能不能很快
输出：“新药品很多内部的结构需要通过搜索，搜索完以后制成药，再到真正怎么去检验
这个药有效，这个闭环非常代价昂贵，非常慢，你很难像下围棋这么简单做出来。”
　　不过，如果找到快速验证新药是否有效的方法，这项技术就能很好地用在新药开发上
了。
　　而用AlphaGo算法用来帮资料中心节能，孙剑就认为非常说得通，因为它和围棋的
特性很一致，能快速输出结果回馈，也就是AlphaGo算法依赖的弱监督信号。
　　当然，从AlphaGo算法的这些限制，我们也不难推想，它在某些小领域内可以做得
非常好，但其实并没有“全面碾压人类”的潜力。
　　去魅归去魅，对于AlphaGo Zero的算法，科研人员纷纷赞不绝口。
　　大道至简的算法
　　在评价Zero的算法时，创新工厂AI工程院副院长王咏刚用了“大道至简”四个字。
　　简单，是不少人工智能“圈内人”读完论文后对Zero的评价。刚刚宣布将要跳槽伯克
利的前微软亚洲研究院首席研究员马毅教授就发微博评论说，这篇论文“没有提出任何新
的方法和模型”，但是彻底地实现了一个简单有效的想法。
　　为什么“简单”这件事如此被学术圈津津乐道？孙剑的解释是“我们做研究追求极简
，去除复杂”，而Zero的算法基本就是在前代基础上从各方面去简化。
　　他说，这种简化，一方面体现在把原来的策略网络和价值网络合并成一个网络，简化
了搜索过程；另一方面体现在用深度残差网络（ResNet）来对输入进行简化，以前需要人
工设计棋盘的输入，体现“这个子下过几次、周围有几个黑子几个白子”这样的资讯，而
现在是“把黑白子二值的图直接送进来，相当于可以理解成对着棋盘拍照片，把照片送给
神经网络，让神经网络看着棋盘照片做决策”。
　　孙剑认为，拟合搜索和ResNet，正是Zero算法中的两个核心技术。
　　其中拟合搜索所解决的问题，主要是定制化，它可以对棋盘上的每一次落子都进行量
化，比如会对最终获胜几率做多大贡献，但是这其实并不是近期才产生的一种理论，而是
在很早之前就存在的一种基础算法理论。
　　而另一核心技术是最深可达80层的ResNet。总的来说，神经网络越深，函数映射能力
就越强、越有效率，越有可能有效预测一个复杂的映射。
　　下围棋时要用到的，就是一个非常复杂的映射，神经网络需要输出每个可能位置落子
时赢的概率，也就是最高要输出一个361维的向量。这是一个非常复杂的输出，需要很深
的网络来解决。
　　人类棋手下棋，落子很多时候靠直觉，而这背后实际上有一个非常复杂的函数，Zero
就用深层ResNet，拟合出了这样的函数。
　　ResNet特点就是利用残差学习，让非常深的网络可以很好地学习，2015年，孙剑带领
的团队就用ResNet把深度神经网络的层数从十几二十层，推到了152层。
　　也正是凭借这样的创新，孙剑团队拿下了ImageNet和MSCOCO图像识别大赛各项目的冠
军。到2016年，他们又推出了第一个上千层的网络，获得了CVPR最佳论文奖。
　　而令孙剑更加意料之外的是，ResNet还被AlphaGo团队看中，成为AlphaGo Zero演算
法中的核心元件之一。
　　这位Face++首席科学家表示很开心为推动整个AI进步“做了一点微小的贡献”，同时
也很钦佩DeepMind团队追求极致的精神。
　　任剑还说，在旷视研究院的工作中，还会不断分享、开放研究成果，更注重技术在产
业中的实用性，进一步推动整个AI产业的进步。
　　另外，还有不少AI大咖和知名科研、棋手对AlphaGo Zero发表了评价，量子位汇集如
下：
　　大咖评说AlphaGo Zero
　　李开复：AI进化超人类想像，但与“奇点”无关
　　昨天AlphaGo Zero横空出世，碾压围棋界。AlphaGo Zero完全不用人类过去的棋谱和
知识，就再次打破人类认知。很多媒体问我对AlphaGo Zero的看法，我的观点是：一是AI
前进的速度比想像中更快，即便是行业内的人士都被AlphaGo Zero跌破眼镜；二是要正视
中国在人工智能学术方面和英美的差距。
　　一方面，AlphaGo Zero的自主学习带来的技术革新并非适用于所有人工智能领域。围
棋是一种对弈游戏，是资讯透明，有明确结构，而且可用规则穷举的。对弈之外，
AlphaGo Zero的技术可能在其他领域应用，比如新材料开发，新药的化学结构探索等，但
这也需要时间验证。而且语音辨识、图像识别、自然语音理解、无人驾驶等领域，资料是
无法穷举，也很难完全无中生有。AlphaGo Zero的技术可以降低资料需求（比如说WayMo
的资料类比），但是依然需要大量的资料。
　　另一方面，AlphaGo Zero里面并没有新的巨大的理论突破。它使用的Tabula Rosa
learning（白板学习，不用人类知识），是以前的围棋系统Crazy Stone最先使用的。
AlphaGo Zero里面最核心使用的技术ResNet，是微软亚洲研究院的孙剑发明的。孙剑现任
旷视科技Face++首席科学家。
　　虽然如此，这篇论文的影响力也是巨大的。AlphaGo Zero 能够完美集成这些技术，
本身就具有里程碑意义。DeepMind的这一成果具有指向标意义，证明这个方向的可行性。
在科研工程领域，探索前所未知的方向是困难重重的，一旦有了可行性证明，跟随者的风
险就会巨幅下降。我相信从昨天开始，所有做围棋对弈的研究人员都在开始学习或复制
AlphaGo Zero。材料、医疗领域的很多研究员也开始探索。
　　AlphaGo Zero的工程和算法确实非常厉害。但千万不要对此产生误解，认为人工智
慧是万能的，所有人工智能都可以无需人类经验从零学习，得出人工智能威胁论。
AlphaGo Zero证明了AI 在快速发展，也验证了英美的科研能力，让我们看到在有些领域
可以不用人类知识、人类资料、人类引导就做出顶级的突破。但是，AlphaGo Zero只能在
单一简单领域应用，更不具有自主思考、设定目标、创意、自我意识。即便聪明如
AlphaGo Zero，也是在人类给下目标，做好数位优化而已。这项结果并没有推进所谓“奇
点”理论。
　　南大周志华：与“无监督学习”无关
　　花半小时看了下文章，说点个人浅见，未必正确仅供批评：
　　别幻想什么无监督学习，监督资讯来自精准规则，非常强的监督资讯。
　　不再把围棋当作从资料中学习的问题，回归到启发式搜索这个传统棋类解决思路。这
里机器学习实质在解决搜寻树启发式评分函数问题。
　　如果说深度学习能在模式识别应用中取代人工设计特征，那么这里显示出强化学习能
在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领
域可能因此巨变，或许不亚于模式识别电脑视觉领域因深度学习而产生的巨变。机器学习
进一步蚕食其他人工智能技术领域。
　　类似想法以往有，但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设
空间竟有强烈的结构，存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我
们自然放弃此等假设，所以这个尝试相当大胆。
　　工程实现能力超级强，别人即便跳出盲点，以启发式搜索界的工程能力也多半做不出
来。
　　目前并非普适，只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务
。
　　Facebook田渊栋：AI穷尽围棋还早
　　老实说这篇Nature要比上一篇好很多，方法非常干净标准，结果非常好，以后肯定是
经典文章了。
　　Policy network和value network放在一起共用参数不是什么新鲜事了，基本上现在
的强化学习算法都这样做了，包括我们这边拿了去年第一名的Doom Bot，还有ELF里面
为了训练微缩版星际而使用的网络设计。另外我记得之前他们已经反复提到用Value
network对局面进行估值会更加稳定，所以最后用完全不用人工设计的defaultpolicy
rollout也在情理之中。
　　让我非常吃惊的是仅仅用了四百九十万的自我对局，每步仅用1600的MCTS rollout，
Zero就超过了去年三月份的水准。并且这些自我对局里有很大一部分是完全瞎走的。这个
数字相当有意思。想一想围棋所有合法状态的数量级是10^170（见Counting Legal
Positions in Go），五百万局棋所能覆蓋的状态数目也就是10^9这个数量级，这两个数
之间的比例比宇宙中所有原子的总数还要多得多。仅仅用这些样本就能学得非常好，只能
说明卷积神经网络（CNN）的结构非常顺应围棋的走法，说句形象的话，这就相当于看了
大英百科全书的第一个字母就能猜出其所有的内容。用ML的语言来说，CNN的
inductivebias（模型的适用范围）极其适合围棋漂亮精致的规则，所以稍微给点样本水
准就上去了。反观人类棋谱有很多不自然的地方，CNN学得反而不快了。我们经常看见跑
KGS或者GoGoD的时候，最后一两个百分点费老大的劲，也许最后那点时间完全是花费在过
拟合奇怪的招法上。
　　如果这个推理是对的话，那么就有几点推断。一是对这个结果不能过分乐观。我们假
设换一个问题（比如说protein folding），神经网络不能很好拟合它而只能采用死记硬
背的方法，那泛化能力就很弱，Self-play就不会有效果。事实上这也正是以前围棋即使
用Self-play都没有太大进展的原因，大家用手调特征加上线性分类器，模型不对路，就
学不到太好的东西。一句话，重点不在左右互搏，重点在模型对路。
　　二是或许卷积神经网络（CNN）系列算法在围棋上的成功，不是因为它达到了围棋
之神的水准，而是因为人类棋手也是用CNN的方式去学棋去下棋，于是在同样的道路上，
或者说同样的inductive bias下，电脑跑得比人类全体都快得多。假设有某种外星生物用
RNN的方式学棋，换一种inductive bias，那它可能找到另一种（可能更强的）下棋方式
。Zero用CNN及ResNet的框架在自学习过程中和人类世界中围棋的演化有大量的相似点，
在侧面上印证了这个思路。在这点上来说，说穷尽了围棋肯定是还早。
　　三就是更证明了在理论上理解深度学习算法的重要性。对于人类直觉能触及到的问
题，机器通过采用有相同或者相似的inductive bias结构的模型，可以去解决。但是人不
知道它是如何做到的，所以除了反复尝试之外，人并不知道如何针对新问题的关键特性去
改进它。如果能在理论上定量地理解深度学习在不同的资料分布上如何工作，那么我相信
到那时我们回头看来，针对什么问题，什么资料，用什么结构的模型会是很容易的事情。
我坚信资料的结构是解开深度学习神奇效果的钥匙。
　　另外推测一下为什么要用MCTS而不用强化学习的其它方法（我不是DM的人，所以肯定
只能推测了）。MCTS其实是线上规划（online planning）的一种，从当前局面出发，以
非参数方式估计局部Q函数，然后用局部Q函数估计去决定下一次rollout要怎么走。既然
是规划，MCTS的限制就是得要知道环境的全部资讯，及有完美的前向模型（forward
model），这样才能知道走完一步后是什么状态。围棋因为规则固定，状态清晰，有完美
快速的前向模型，所以MCTS是个好的选择。但要是用在Atari上的话，就得要在训练演算
法中内置一个Atari模拟器，或者去学习一个前向模型（forward model），相比
actor-critic或者policy gradient可以用当前状态路径就地取材，要麻烦得多。但如果
能放进去那一定是好的，像Atari这样的游戏，要是大家用MCTS我觉得可能不用学policy
直接当场planning就会有很好的效果。很多文章都没比，因为比了就不好玩了。
　　另外，这篇文章看起来实现的难度和所需要的计算资源都比上一篇少很多，我相信过
不了多久就会有人重复出来，到时候应该会有更多的insight。大家期待一下吧。
　　清华大学马少平教授：不能认为AI资料问题解决了
　　从早上开始，就被AlphaGo Zero的消息刷屏了，DeepMind公司最新的论文显示，最新
版本的AlphaGo，完全抛弃了人类棋谱，实现了从零开始学习。
　　对于棋类问题来说，在蒙特卡洛树搜索的框架下，实现从零开始学习，我一直认为是
可行的，也多次与别人讨论这个问题，当今年初Master推出时，就曾预测这个新系统可能
实现了从零开始学习，可惜根据DeepMind后来透露的消息，Master并没有完全抛弃人类棋
谱，而是在以前系统的基础上，通过强化学习提高系统的水准，虽然人类棋谱的作用越来
越弱，但是启动还是学习了人类棋谱，并没有实现“冷”启动。
　　根据DeepMind透露的消息，AlphaGo Zero不但抛弃了人类棋谱，实现了从零开始学习
，连以前使用的人类设计的特征也抛弃了，直接用棋盘上的黑白棋作为输入，可以说是把
人类抛弃的彻彻底底，除了围棋规则外，不使用人类的任何资料和知识了。仅通过3天训
练，就可以战胜和李世石下棋时的AlphaGo，而经过40天的训练后，则可以打败与柯洁下
棋时的AlphaGo了。
　　真是佩服DeepMind的这种“把革命进行到底”的作风，可以说是把电脑围棋做到了极
致。
　　那么AlphaGo Zero与AlphaGo（用AlphaGo表示以前的版本）都有哪些主要的差别呢？
　　1。在训练中不再依靠人类棋谱。AlphaGo在训练中，先用人类棋谱进行训练，然后再
通过自我互博的方法自我提高。而AlphaGo Zero直接就采用自我互博的方式进行学习，在
蒙特卡洛树搜索的框架下，一点点提高自己的水准。
　　2。不再使用人工设计的特征作为输入。在AlphaGo中，输入的是经过人工设计的特征
，每个落子位置，根据该点及其周围的棋的类型（黑棋、白棋、空白等）组成不同的输入
模式。而AlphaGo Zero则直接把棋盘上的黑白棋作为输入。这一点得益于后边介绍的神经
网络结构的变化，使得神经网络层数更深，提取特征的能力更强。
　　3。将策略网络和价值网络合二为一。在AlphaGo中，使用的策略网络和价值网络是分
开训练的，但是两个网络的大部分结构是一样的，只是输出不同。在AlphaGo Zero中将这
两个网络合并为一个，从输入到中间几层是共用的，只是后边几层到输出层是分开的。并
在损失函数中同时考虑了策略和价值两个部分。这样训练起来应该会更快吧？
　　4。网络结构采用残差网络，网络深度更深。AlphaGo Zero在特征提取层采用了多个
残差模组，每个模组包含2个卷积层，比之前用了12个卷积层的AlphaGo深度明显增加，从
而可以实现更好的特征提取。
　　5。不再使用随机模拟。在AlphaGo中，在蒙特卡洛树搜索的过程中，要采用随机模拟
的方法计算棋局的胜率，而在AlphaGo Zero中不再使用随机模拟的方法，完全依靠神经网
路的结果代替随机类比。这应该完全得益于价值网络估值的准确性，也有效加快了搜索速
度。
　　6。只用了4块TPU训练72小时就可以战胜与李世石交手的AlphaGo。训练40天后可以战
胜与柯洁交手的AlphaGo。
　　对于电脑围棋来说，以上改进无疑是个重要的突破，但也要正确认识这些突破。比如
，之所以可以实现从零开始学习，是因为棋类问题的特点所决定的，是个水到渠成的结果
。因为棋类问题一个重要的特性就是可以让机器自动判别最终结果的胜负，这样才可以不
用人类资料，自己实现产生资料，自我训练，自我提高下棋水准。但是这种方式很难推广
到其他领域，不能认为人工智能的资料问题就解决了。
　　对于电脑围棋来说，以上改进无疑是个重要的突破，但也要正确认识这些突破。比如
，之所以可以实现从零开始学习，是因为棋类问题的特点所决定的，是个水到渠成的结果
。因为棋类问题一个重要的特性就是可以让机器自动判别最终结果的胜负，这样才可以不
用人类资料，自己实现产生资料，自我训练，自我提高下棋水准。但是这种方式很难推广
到其他领域，不能认为人工智能的资料问题就解决了。
　　Rokid祝铭明：资料学习到评分方法学习的切换
　　Alpha Zero的文章有多少人认真看过，就在传无监督学习，这次有意思的是方法其实
有点回归传统规则指导的思考模式。如果这个算是无监督学习，那几十年前就有了。只是
这次是超大空间下的基于规则的决策树裁决评分，文章最有价值的是把之前资料学习变成
了评分方法学习，这个其实有点意思，对于规则清晰问题可以大大减少资料依赖。
　　简单说这个就是如何通过学习，避免对超大规模搜寻树的遍历，同时保证决策打分的
合理性。其实有点白盒子的味道。这方法的确在很多规则简单清晰，但空间规模大的问题
上有启发意义，而且从理论上来说肯定比之前的基于资料学习的要优秀很多，因为过去的
方法仍然对经验资料依赖。不过和大家说的无监督学习是两码事。这么说大家都能理解了
吧。
　　即将加入加州伯克利的马毅教授
　　熬夜读完AlphaGo zero的Nature论文，深有感触：我们一生与多少简单而又有效的想
法失之交臂，是因为我们或者过早认为这些想法不值得去做或者没有能力或毅力正确而彻
底地实现它们？这篇论文可以说没有提出任何新的方法和模型——方法可以说比以前的更
简单“粗暴”。但是认真正确彻底的验证了这个看似简单的想法到底work不work。在做研
究上，这往往才是拉开人与人之间差距的关键。
　　柯洁九段
　　一个纯净、纯粹自我学习的AlphaGo是最强的…对于AlphaGo的自我进步来讲…人类太
多余了。
　　还有一些零散讨论：
　　微软全球资深副总裁、美国电脑协会（ACM）院士Peter Lee认为这是一个激动人心的
成果，如果应用到其他领域会有很多前景。其中的理论与康奈尔大学电脑系教授、1986年
图灵奖获得者John Hopcroft之前下国际象棋的工作相似，而且Deepmind之前做的德州扑
克比围棋搜索空间更大、更难。不过受限规则下的围棋跟现实世界的应用场景有天壤之别
，现在的自动驾驶、商业决策比游戏复杂很多。
　　John Hopcroft提到了他常说的监督学习和非监督学习，因为给大量资料标标签是一
件非常难的事情。他还说，现在AI还在工程阶段，我们先是把飞机飞向天，此后才理解了
空气动力学。AI现在能告诉你是谁，未来能告诉你在想什么，再之后会有理论解释为什么
这能工作。
　　美国人工智能学会（AAAI）院士Lise Getoor认为，在监督学习和非监督学习之上还
有结构化学习，如何让机器发现可能是递回的ontological commitment。我们现在的深度
学习模型可能存在structure bias。
　　杨强教授没有说话，不过AlphaGo Zero论文刚一发布，他担任理事会主席的国际人工
智慧大会（IJCAI）就为这支团队颁发了第一枚马文·明斯基奖章，可谓最高赞许。
http://sports.sina.com.cn/go/2017-10-21/doc-ifymzzpv8473447.shtml

作者: aegis43210 (宇宙) 2017-10-21 20:50:00

超理科文，先推再看

作者: oldTim (TIME WILL TELL) 2017-10-21 21:29:00

用围棋规则来反证无师自通很怪，意思只需懂规则就可当AlphaGO的老师，这比较像裁判而不是老师了八

作者: birdy590 (Birdy) 2017-10-21 21:32:00

论调很奇怪因为明确的规则才让游戏有意义否则就会变成刘青云对古天乐一下台湾牌一下美国牌

作者: Yibooo (　) 2017-10-21 21:45:00

原来不是只有我有这种感觉-_-

作者: ddavid (谎言接线生) 2017-10-21 22:11:00

其实看起来他们是在讲DM&ML里面Supervised跟Unsupervised的差别而已，不知道为什么讲成跟不跟人类学习主要应该还是“无师自通”这个人类用词跟Unsupervised其实定义有差，所以连着一起讲意义混乱了，其实不应该拿Unsupervised来解释“无师自通”XD对人类来讲不吃棋谱就算是无师自通了，但是对学习算法定义来说，只要能给解答（在围棋上是判定胜负）就还是算在Supervised里面

作者: oldTim (TIME WILL TELL) 2017-10-21 22:17:00

开头那段无师自通看起来像是为了维护人类尊严，硬凹把人类的经验知识与围棋规则混为一谈

作者: s891234 (嘟噜咑) 2017-10-21 22:43:00

不是，他说的是无监督，无监督学习会跑出很多不可控的东西，像天网什么的，但A/Z是微监督，也就是每一步都有规则在监督束缚他我猜啦

作者: xhakiboo (xhakiboo) 2017-10-21 22:52:00

何必说是无师自通把围棋史浓缩也是从第一个人什么都是不懂开始的AI只是把时间缩短了

作者: ddavid (谎言接线生) 2017-10-21 23:16:00

没有啥维护人类尊严啊，他就很明白讲“无监督”式学习的定义而已，本来在Training有能评判确定对错的规则就不会是无监督式学习了，这是完全正确的啊

作者: HeterCompute (异质运算) 2017-10-21 23:18:00

AZ确实是无师自通啊，人类没教他任何相关知识

作者: ddavid (谎言接线生) 2017-10-21 23:18:00

只不过因为跟“无师自通”这个定义不同的人类用词连着一起讲让读者可能弄混了吧，其实文中还是有区分开来注意那一段开头就有这句话：“究竟对不对，还是取决于怎样定义无师自通，从哪个角度来看。”

作者: birdy590 (Birdy) 2017-10-21 23:22:00

training哪里有办法判定对错

作者: ddavid (谎言接线生) 2017-10-21 23:22:00

他里面也有区别人类觉得的无师自通以及机器学习认为的无师自通是不一样定义了

作者: birdy590 (Birdy) 2017-10-21 23:23:00

要做的决策是决定哪一个选点最佳

作者: ddavid (谎言接线生) 2017-10-21 23:23:00

@birdy590 你下到完就会告诉你黑赢白赢，就是判定了

作者: birdy590 (Birdy) 2017-10-21 23:23:00

我倒认为是统整的人搞错意思了

作者: ddavid (谎言接线生) 2017-10-21 23:24:00

而Training做的事就是从这一大堆自我对局累积的棋谱建出能下到赢的模型

作者: birdy590 (Birdy) 2017-10-21 23:25:00

实际上应该是规则可以明确的判定胜负

作者: thomaspig (沈猪) 2017-10-21 23:25:00

推

作者: birdy590 (Birdy) 2017-10-21 23:25:00

有些游戏的规则无法做到这一点

作者: ddavid (谎言接线生) 2017-10-21 23:26:00

本来就是这样没错啊？就因为围棋是可以明确判定胜负，所以

作者: birdy590 (Birdy) 2017-10-21 23:26:00

但这是本身的个性不是人有没有提供他什么

作者: ddavid (谎言接线生) 2017-10-21 23:26:00

喂进去的资料都是有胜负标签的，所以是监督式学习

作者: birdy590 (Birdy) 2017-10-21 23:26:00

特性

作者: ddavid (谎言接线生) 2017-10-21 23:29:00

这样说好了，其实围棋也不是不可以用无监督式的方式来学，只是八成会学得很烂XD我用一个比较直白的说法来讲：叫一个完全不懂围棋的人来，给他看一堆人类下棋的影片，但是不跟他讲最后怎么判定胜负，让他猜围棋到底怎么下这个就是无监督式学习的学法了。很直觉的，在围棋上用这种

作者: birdy590 (Birdy) 2017-10-21 23:31:00

这种说法没有意义你无法自己创立规则

作者: ddavid (谎言接线生) 2017-10-21 23:32:00

方法是既没效率也没意义的XD

作者: birdy590 (Birdy) 2017-10-21 23:32:00

自己发明的规则那也不是围棋

作者: CGary (下雨天也挺浪漫的) 2017-10-21 23:32:00

他想讲的是我们告诉他下围棋所以他凭借规则下围棋这是一种监督他不会无端端看着一堆子决定创造一个叫做围棋的游戏这是我们在资讯领域对于智慧的一块拼图同时也驳斥天网这种事的可能性因为他不会无端端在我们设计给他的事上突然

作者: ddavid (谎言接线生) 2017-10-21 23:34:00

重点不在有没有规则，而是训练时拿不拿得到解答而已

作者: CGary (下雨天也挺浪漫的) 2017-10-21 23:35:00

“觉得要设计”一个东西来搞定人类... 他不是这样的概念对于第一个题目很多资讯科学家跟生物学家都很有兴趣去年

作者: ddavid (谎言接线生) 2017-10-21 23:36:00

CGary讲到重点

作者: CGary (下雨天也挺浪漫的) 2017-10-21 23:36:00

DM发布AI学习各种走路法,但科学家更想知道的是一个躯体会无端端决定站起来吗？类人猿不站起来的多的是...所以AI只是模拟了我们的决策后把站起来这件事做出来类似的讨论而已

作者: birdy590 (Birdy) 2017-10-21 23:42:00

本质上还是在计算只是跟人类的方式有些部分类似

作者: aegis43210 (宇宙) 2017-10-22 01:36:00

强化学习就是模拟人类的直觉，DM这个新算法，只是更简单及有效的模拟出人类对围棋这游戏的直觉科学家的确很希望AI能从围棋棋盘和黑白子，自己创造出围棋规则，这就是Intuitive Thinking

作者: Parazicecum (WTKD) 2017-10-22 03:30:00

科学家希不希望是一回事问题AlphaGO就不是这样设计的啊 Training的过程中是有给输出那就不是非监督

作者: rainlover 2017-10-22 09:12:00

科学家着眼的不止是围棋，游戏规则是种强监督吧

作者: peterhuo (人生位阶乐胜真爽) 2017-10-22 09:29:00

很硬凹

作者: jpg31415926 (圆周率π) 2017-10-22 09:52:00

"不需要人类棋谱"跟"不需要游戏规则"是两件不同的事

作者: isntland (陆人甲) 2017-10-22 16:36:00

其实以研发新药类比好了，即使AI能够快速模拟组合筛选无数分子式，但是每一个候选分子式有没有效果，如果还需人类标示结果，那就是监督学习。对应到围棋游戏，人类可以用精确的规则定义胜负，这点直接指导了Zero产生价值网络的基础，就是ML提到的人类经验。

作者: Sinreigensou (神灵幻想) 2017-10-22 18:33:00

就很像蚁王只要了解规则就能打爆天下无敌手

作者: oldTim (TIME WILL TELL) 2017-10-22 19:39:00

人类订定的游戏规则和人类经验根本是两回事想说AI不会失控或是人类不论如何都在指导AI就直说就好不需要偷换概念

作者: ddavid (谎言接线生) 2017-10-22 21:23:00

楼上，“监督式学习”定义就是那样啊，哪边偷换概念了而且事实上就真的有无监督式学习存在啊，并没有什么人类绝对都在监督AI这回事事实上监督式非监督式的差别也不在“人类”监督就是了XD

作者: CGary (下雨天也挺浪漫的) 2017-10-22 22:13:00

应该说你跑去问一个资讯科学家他自然会回答你"是也不是",他很清楚你想问什么但是站在他的立场他要对他的专业负责强AI世界讨论的是我们能否透过一台机器把人类设计过的东西设计出来这个现在连个影都还没有纯粹的非监督式学习目前就是被“寄望”可以透过完全不需要人类给它定义（不用他们告诉电脑什么叫做赢电脑自然知道我得要设计一个叫做赢的概念）所以他才会提到这也是一种监督... 然而在弱AI世界中现在我们针对特定问题已经能够处理得很不错了但这本质上跟一个复杂的sorting算法有什么差异呢？我们也很不擅长高速排序电脑也能处理得比我们好得多这不是发展这门科学他们期待的结果站在围棋迷大家希望AG更强但DM还是把它资源拔去处理星海了就是因为他们想要把问题通用化这类资讯对称的游戏他们已经有概念要怎么处理了（这就是这篇算法最好的地方,几乎没有参数化痕迹而完全使用算法解）, 所以要开始解决不对称资讯的游戏才能知道我们怎么通用化问题啊:)上面的例子也不是太对在医学上我们是可以定义什么叫做好的结果只是比较麻烦的是我们可能"很难"实验4.9M次...XD

作者: oldTim (TIME WILL TELL) 2017-10-23 00:32:00

没人否认AlphaGO仍是监督式学习，所谓偷换概念是指将监督学习所需输入的人类订定的游戏规则，和无师自通所需输入的人类知识混为一谈，若是要硬凹围棋规则也是人类知识的一种，而哪启不是所有会下围棋的人都有资格当AlphaGO老师如果只单看AI专机发言是没啥问题，问题是编辑拿无监督学习来为人类的知识并不多余来做辩护，可是看上下文，本文中先引用柯洁的话:人类的知识太多余，显然这里的知识根本不是啥围棋规则而是职棋的棋理，编辑就是这样偷换观念

作者: wadashi1 (阿拉丁) 2017-10-23 01:50:00

可以从象棋开始,把其他棋类血洗一遍...

作者: aegis43210 (宇宙) 2017-10-23 02:23:00

象棋和西洋棋的规则与限制太多了，没必要去研究吧

作者: ddavid (谎言接线生) 2017-10-23 14:55:00

@oldTim 文中很明显把人类认为的无师自通跟机器学习上的无师自通区分开来，我不觉得哪边在偷换概念，虽然对于完全不懂的外行人来看还是可能会混在一起里面每一个发表意见的人，其内容都应该独立看待，编辑确实把所有不同专家的言论一并列出，不代表应该混在一起看，柯洁就不是机器学习专家就我看来这篇脉络就是先引柯洁的话来表现一般人可能有的误解，然后开始进入专家解说正确的认知应该是什么，误解在哪里

作者: mothertime (我超爱傅红雪这变态) 2017-10-23 15:07:00

无师自通跟无监督学习不同，他搞错无师自通的定义了

作者: ddavid (谎言接线生) 2017-10-23 15:07:00

@wadashi1 都血洗难度更高的围棋了，回去洗简单的象棋是想干嘛，嫌时间跟电费浪费太少喔？XD

作者: mothertime (我超爱傅红雪这变态) 2017-10-23 15:08:00

理解基本规则是无师自通的前提

作者: oldTim (TIME WILL TELL) 2017-10-23 16:13:00

就编辑搞混无师自通的定义，硬要把两种观念嫁接编辑一开始引用柯洁的话"人类太多余"，然后接下来说"虽说人类的知识和经验没多大作用，但也不至于多余"随后以"但这算法依然需要人类向它灌输围棋的规则"来做为人类知识经验并不多余的根据，这就是把围棋规则当成是人类的经验知识的一种，明显鱼目混珠，而后引用AI专家的话时，因为已有编辑错误的前提:围棋规则也是人类知识一种等于是AI专家对非监督学习的解释已经被扭曲成对非无师自通的辩护，实际上无监督跟无人类围棋知识根本是两回事再者，一开头柯洁说的人类太多余，和文中AI专家说的人类并非无用，也明显是两个不同观念，前者是指职棋后者是指输入规则的工程师，编辑用后者的回答来说明前者的论点不对也是张飞打岳飞，确实如ddavid大所说两者应该并列来看但编辑就是要偷换概念把两者混为一谈我也无言事实上单独看AlphaGO Zero，传统职棋确实没有帮助，若想帮职棋辩护，应该从软件发展历程角度切入，至少一开始版本是有学人类棋谱的，而不是硬凹反而让说服力降低

作者: wadashi1 (阿拉丁) 2017-10-23 22:19:00

@ddavid 当然不是跟人挑战,是跟目前最强的象棋软件挑战我在帮AlphaGo找工作啊!可以由zero的AG来看象棋的成长曲线,看花多久时间可以达成与其他最强象棋软件的实力,其实是很具有意义的!借由不同棋的挑战,搞不好可触发团队新的想法也不一定!

作者: staristic (ANSI lover) 2017-10-23 22:50:00

楼上，你那个像是拿牛刀去杀鸡来开发新式的牛刀刀法象棋和围棋的难度差不是档次的问题，是数量级的问题围棋破解了以后再回头去解象棋实在没什么意义

作者: wadashi1 (阿拉丁) 2017-10-23 23:16:00

就像博士在做数学研究,一直搞不出名堂,就换个方向玩玩国中小的数学益智游戏.说的好像其他象棋软件好像很弱一样... 呵反正Alphago在围棋上已经结束任务,除了等deepmind公布他们的目标,不然很多希望他们做的事情,我多想都是多余的,没什么好期待的..

作者: ddavid (谎言接线生) 2017-10-24 00:02:00

AlphaGo哪里会没工作，实际运用的几个方面不都早讲过了然后现在想干Starcraft就发现难度太高（或说目前方法不适合解这类问题），就看会不会在这方向开发新技术了至于象棋，本质上就跟围棋是彻底的同类问题，根本没有太大触发新想法的空间，你叫他玩暗棋或陆军棋还比较有意义

作者: Eriri (英梨梨) 2017-10-24 01:39:00

Deepmind早就说过要进军生药或材料方面的领域了棋类游戏对他们不过是者试验方法展示能力的平台罢了

继续阅读

[问题] 懒人无指导又不看书有可能进步吗？solomn [讨论] 有关“AlphaGo Zero 棋风特别好战”之意giorno78 [问题] 日本的围棋实力是进步还是衰退？einstean [新闻] 赵治勋：期待井山成为世界第一 qweewqq [情报] Deepmind AlphaGo AMAHeterCompute [新闻] 应昌期的围棋人生:专程到日本棋院商讨规则qweewqq Fw: [ＦＢ] 黄士杰: 11月10日人工智能年会的演讲staristic [新闻] 柯洁：对于AlphaGo的进步来讲人类太多余qweewqq Fw: [爆卦] AlphaGo终极版：AlphaGo Zeroulycess [新闻] 柯洁：夺利民杯完成心愿要让后辈都记住qweewqq