[爆卦] AlphaGo之父 - 剑桥大学演讲 Joey818 PTT批踢踢实业坊

[爆卦] AlphaGo之父 - 剑桥大学演讲

楼主: Joey818 (时代趋向和平也不再振奋) 2017-04-15 17:37:33

杰米斯·哈萨比斯，Deep Mind创始人，AlphaGo之父
AlphaGo（阿尔法狗）之父在剑桥大学历时45分钟的演讲：
非常感谢大家今天能够到场，今天，我将谈谈人工智能，以及DeepMind近期在做些什么
，我把这场报告命名为“超越人类认知的极限”，我希望到了报告结束的时候，大家都清
晰了解我想传达的思想。
1. 你真的知道什么是人工智能吗？
对于不知道 DeepMind 公司的朋友，我做个简单介绍，我们是在 2010 年于伦敦成立了这
家公司，在 2014 年我们被 Google 收购，希望借此加快我们人工智能技术的脚步。我们
的使命是什么呢？我们的首要使命便是解决人工智能问题；一旦这个问题解决了，理论上
任何问题都可以被解决。这就是我们的两大使命了，听起来可能有点狡猾，但是我们真的
相信，如果人工智能最基本的问题都解决了的话，没有什么问题是困难的。
那么我们准备怎样实现这个目标呢？DeepMind 现在在努力制造世界上第一台通用学习机
器，大体上学习可以分为两类：一种就是直接从输入资料和经验中学习，没有既定的程序
或者规则可循，系统需要从原始数据自己进行学习；第二种学习系统就是通用学习系统，
指的是一种算法可以用于不同的任务和领域，甚至是一些从未见过的全新领域。大家一
定会问，系统是怎么做到这一点的？
其实，人脑就是一个非常明显的例子，这是有可能的。关键在于如何透过大量的数据资源
，寻找到最合适的解决方式和算法。我们把这种系统叫做通用人工智能，来区别于如今
我们目前大部分人在用的，仅在某项领域发挥特长的狭义人工智能，这种狭义人工智能在
过去的 40-50 年非常流行。
IBM 发明的深蓝系统（DeepBlue）就是一个很好的狭义人工智能的例子，他在上世纪 90
年代末期曾打败了西洋棋冠军盖瑞 · 卡斯帕罗夫（Gary Kasporov）。如今，我们到了
人工智能的新的转捩点，我们有着更加先进、搭配得更好的技术。
2、如何让机器听从人类的命令？
大家可能想问机器是如何听从人类的命令的，其实并不是机器或者算法本身，而是一群
聪明的开发者智慧的结晶。他们与每一位西洋棋大师对话，汲取他们的经验，把其转化成
程式码和规则，建立了人类最强的西洋棋大师团队。但是这样的系统仅限于西洋棋，不能
用于其他游戏。对于新的游戏，你需要重新开始编程。在某种程度上，这些技术仍然不够
完美，并不是传统意义上的完全人工智能，其中所缺乏的就是普遍性和学习性。我们想透
过“加强学习”来解决这一难题。在这里我解释一下强化学习，我相信很多人都了解这个
算法。
首先，想像一下有一个主体，在 AI 领域我们称我们的人工智能系统为主体，它需要了解
自己所处的环境，并尽力找出自己要达到的目的。这里的环境可以指真实事件，可以是机
器人，也可以是虚拟世界，比如游戏环境；主体透过两种方式与周围环境接触；它先透过
观察熟悉环境，我们起初透过视觉，之后也可以透过听觉、触觉等，我们也在发展多感官
的系统；
第二个任务，就是在此基础上，建模并找出最佳选择。这可能涉及对未来的预期，想像，
以及假设检验。这个主体经常处在真实环境中，当时间节点到了的时候，系统需要输出目
前找到的最佳方案。这个方案可能或多或少会改变所处环境，进一步驱动观察的结果，并
回馈给主体
简单来说，这就是强化学习的原则，示意图虽然简单，但是其中却涉及了极其复杂的演算
法和原理。如果我们能够解决大部分问题，我们就能够搭建泛用人工智能。这是因为两个
主要原因：首先，从数学角度来讲，我的合伙人是一名博士，他建了一个系统叫“AI-XI
”，用这个模型，他证明在电脑硬件条件和时间无限的情况下，建一个泛用人工智能，需
要的资讯。另外，从动物和人类等生物角度来讲，人类的大脑是多巴胺控制的，它就在执
行强化学习的行为。因此，不论是从数学的角度，还是生物的角度，强化学习是一个有效
的解决人工智能问题的工具。
3、为什么围棋是人工智能难解之谜？
接下来，我要谈谈我们最近的技术，那就是去年诞生的 AlphaGo；希望在座的大家了解这
个游戏，并尝试玩玩，这是个非常棒的游戏。围棋使用方形格状棋盘及黑白二色圆形棋子
进行对弈，棋盘上有纵横各 19 条直线将棋盘分成 361 个交叉点，棋子走在交叉点上，
双方交替行棋，以围地多者为胜。围棋规则没有多复杂，我可以在五分钟之内教给大家。
这张图展示的就是一局已结束，整个棋盘布满棋子，然后数一下你的棋子圈出的空间以及
对方棋子圈出的空间，谁的空间大，谁就获胜。在图示的这场势均力敌的比赛中，白棋一
格之差险胜。
其实，要理解这个游戏的最终目的非常难，因为它并不像西洋棋那样，有着直接明确的
目标，在围棋里，完全是凭直觉的，甚至连如何决定游戏结束，对于初学者来说都很难。
围棋是个历史悠久的游戏，有着 3000 多年的历史，起源于中国，在亚洲，围棋有着很深
的文化意义。孔子还曾指出，围棋是每一个真正的学者都应该掌握的四大技能之一（琴棋
书画），所以在亚洲围棋是种艺术，专家们都会玩。
如今，这个游戏更加流行，有 4000 万人在玩围棋，超过 2000 多个顶级专家，如果你在
4-5 岁的时候就展示了围棋的天赋，这些小孩将会被选中，并进入特殊的专业围棋学校
，在那里，学生从 6 岁起，每天花 12 个小时学习围棋，一周七天，天天如此。直到你
成为这个领域的专家，才可以离开学校毕业。这些专家基本是投入人生全部的精力，去揣
摩学习掌握这门技巧，我认为围棋也许是最优雅的一种游戏了。
就像我说的那样，这个游戏只有两个非常简单的规则，而其复杂性却是难以想像的，一共
有 10170（10 的 170 次方）种可能性，这个数字比整个宇宙中的原子数 1080（10 的
80 次方）还要多，是很难穷举出围棋所有的可能结果的。我们需要一种更加聪明的方法
。你也许会问：为什么电脑进行围棋的游戏会如此困难？尽管 1997 年 IBM 的人工智能
DeepBlue（深蓝）打败了当时的西洋棋世界冠军 Garry Kasparov，围棋一直是人工智能
领域的难解之谜。我们能否做出一个算法来与世界围棋冠军竞争呢？要做到这一点，有
两个大的挑战：
一、搜寻空间庞大（分支因子就有 200 个），一个很好的例子，就是在围棋中，平均每
一个棋子有两百个可能的位置，而西洋棋仅仅 20。围棋的分支因子远大于西洋棋。
二、比这个更难的是，几乎没有一个合适的评价函数来定义谁是赢家，赢了多少；这个评
价函数对于该系统是重要的弯见。而对于西洋棋来说，写一个评价函数是非常简单的，因
为西洋棋不仅是个相对简单的游戏，而且是实体的，只要数一下双方的棋子，就能轻而易
举得出结论了。你也可以透过其他指标来评价西洋棋，比如棋子的机动性等。
所有的这些标准在围棋里都是不可能的，并不是所有的部分都一样，甚至一个小小部分的
变动，会整个改变格局，所以每一个小的棋子都对棋局有着重要的影响。最难的部分是，
我称西洋棋为毁灭性的游戏，游戏开始的时候，所有的棋子都在棋盘上了，随着游戏的进
行，棋子被对方吃掉，棋子数目不断减少，游戏也变得越来越简单。相反地，围棋是个建
设性的游戏，开始的时候，棋盘是空的，下棋双方再慢慢把棋盘填满。
因此，如果你准备在中场判断一下目前形势，在西洋棋里，你只需看看现在的棋盘，就能
告诉你大致情况；在围棋里，你必须评估未来可能会发生什么，才能评估现在的局势，所
以相比之下，围棋难得多。也有很多人试着将 DeepBlue 的技术应用在围棋上，但是结果
并不理想，这些技术连一个专业围棋手都打不赢，更别说世界冠军了。
所以大家就要问了，连电脑操作起来都这么难，人类是怎样解决这个问题的？其实，人类
是靠直觉的，而围棋一开始就是一个靠直觉而非计算的游戏。所以，如果你问一个西洋棋
选手，为什么这步这样走，他会告诉你，这样走完之后，下一步和下下一步会怎样走，就
可以达到什么样的目的。这样的计划，有时候也许不尽如人意，但是起码选手是有原因的
。
然而围棋就不同了，如果你去问世界级的大师，为什么走这一步，他们经常回答你直觉告
诉他这么走，这是真的，他们是没法描述其中的原因的。我们透过用加强学习的方式来提
高人工神经网络算法，希望能够解决这个问题。我们试图透过深度神经网络模仿人类的
这种直觉行为，在这里，需要训练两个神经网络，一种是决策网络，我们从网上下载了上
百万的业余围棋游戏，透过监督学习，我们让 AlphaGo 模拟人类下围棋的行为；我们从
棋盘上任意选择一个落子点，训练系统去预测下一步人类将作出的决定；系统的输入是在
那个特殊位置最有可能发生的前五或者前十的位置移动；这样，你只需看那 5-10 种可能
性，而不用分析所有的 200 种可能性了。
一旦我们有了这个，我们对系统进行几百万次的训练，透过误差加强学习，对于赢了的情
况，让系统意识到，下次出现类似的情形时，更有可能做相似的决定。相反地，如果系统
输了，那么下次再出现类似的情况，就不会选择这种走法。我们建立了自己的游戏数据库
，透过百万次的游戏，对系统进行训练，得到第二种神经网络。选择不同的落子点，经过
信赖区间进行学习，选出能够赢的情况，这个机率介于 0-1 之间，0 是根本不可能赢，
1 是百分之百赢。
把这两个神经网络结合起来（决策网络和值网络），我们可以大致预估出现在的情况。这
两个神经网络树，透过蒙特卡罗算法，把这种本来不能解决的问题，变得可以解决。我
们网罗了大部分的围棋下法，然后和欧洲的围棋冠军比赛，结果是 AlphaGo 赢了，那是
我们的第一次突破，而且相关算法还被发表在《自然》科学杂志。

作者: xhakiboo (xhakiboo) 2017-04-15 17:38:00

这算爆挂吗= =

作者: RozenMaiden ( ) 2017-04-15 17:39:00

原文是中国新闻 http://tinyurl.com/mgqzrr7原po用爆卦而不用新闻来规避不得张贴中国新闻的板规

作者: infoman (路哲) 2017-04-15 17:42:00

这样就是违反板规啊

作者: lolic (lolic) 2017-04-15 17:43:00

掰

作者: wxtab019 (天霜凝月) 2017-04-15 17:43:00

看过了

作者: snow3804 (snow3804) 2017-04-15 17:50:00

我文组的,说中文好吗

作者: wayne1228 (wayne1228) 2017-04-15 17:51:00

好文章

作者: appoo (熊吉吉) 2017-04-15 17:51:00

好文章啊，干嘛找人家麻烦

作者: wayne1228 (wayne1228) 2017-04-15 17:52:00

想学围棋要如何入门?

作者: hipmyhop (黑我帕) 2017-04-15 17:52:00

推

作者: higameboy (爱聊天的boy~) 2017-04-15 17:54:00

阿法狗知道什么是第一手大元吗

作者: iamyouruncle (youruncle) 2017-04-15 17:54:00

优文推个

作者: pro1028 (丸丸) 2017-04-15 17:55:00

我以为是alphago演讲...

作者: wayne1228 (wayne1228) 2017-04-15 17:55:00

人类的直觉应该是从小到大历练而成电脑不是这么好模

作者: qwer1988 (å®…å®…å·¥ç¨‹å¸«) 2017-04-15 17:55:00

跟我想的一样

作者: jolynn403 (揪令) 2017-04-15 17:57:00

很棒的文章

继续阅读

Re: [问卦] 穿低胸/短裤/紧身衣裤的女生在想什么？PegasusSeiya [问卦]北韩和美国这出戏，会怎么落幕？memento55 [问卦] 觉青还有什么要反的？Herrington [新闻] 澳洲男火车内失控大骂亚裔乘客：中国人gankgf [新闻] 锦荣蔡依林仍有联络理想女友是高个Operon Re: [问卦] 穿低胸/短裤/紧身衣裤的女生在想什么F22pilot [问卦] 有没有凹脚的八卦？YESGOTO [新闻]外交做不出东西柯P:何不盖大一点的清真寺Lexussss Re: Fw: [请益] 捐血被拒绝了。(FROM 甲甲板)botnet Re: [新闻] 终于忽悠不下去了!纳智捷濒临破产边缘aa3ch