[爆卦] AlphaGo之父 - 剑桥大学演讲

楼主: Joey818 (时代趋向和平 也不再振奋)   2017-04-15 17:37:33
杰米斯·哈萨比斯,Deep Mind创始人,AlphaGo之父
AlphaGo(阿尔法狗)之父在剑桥大学历时45分钟的演讲:
非常感谢大家今天能够到场,今天,我将谈谈人工智能,以及DeepMind近期在做些什么
,我把这场报告命名为“超越人类认知的极限”,我希望到了报告结束的时候,大家都清
晰了解我想传达的思想。
1. 你真的知道什么是人工智能吗?
对于不知道 DeepMind 公司的朋友,我做个简单介绍,我们是在 2010 年于伦敦成立了这
家公司,在 2014 年我们被 Google 收购,希望借此加快我们人工智能技术的脚步。我们
的使命是什么呢?我们的首要使命便是解决人工智能问题;一旦这个问题解决了,理论上
任何问题都可以被解决。这就是我们的两大使命了,听起来可能有点狡猾,但是我们真的
相信,如果人工智能最基本的问题都解决了的话,没有什么问题是困难的。
那么我们准备怎样实现这个目标呢?DeepMind 现在在努力制造世界上第一台通用学习机
器,大体上学习可以分为两类:一种就是直接从输入资料和经验中学习,没有既定的程序
或者规则可循,系统需要从原始数据自己进行学习;第二种学习系统就是通用学习系统,
指的是一种算法可以用于不同的任务和领域,甚至是一些从未见过的全新领域。大家一
定会问,系统是怎么做到这一点的?
其实,人脑就是一个非常明显的例子,这是有可能的。关键在于如何透过大量的数据资源
,寻找到最合适的解决方式和算法。我们把这种系统叫做通用人工智能,来区别于如今
我们目前大部分人在用的,仅在某项领域发挥特长的狭义人工智能,这种狭义人工智能在
过去的 40-50 年非常流行。
IBM 发明的深蓝系统(DeepBlue)就是一个很好的狭义人工智能的例子,他在上世纪 90
年代末期曾打败了西洋棋冠军盖瑞 · 卡斯帕罗夫(Gary Kasporov)。如今,我们到了
人工智能的新的转捩点,我们有着更加先进、搭配得更好的技术。
2、如何让机器听从人类的命令?
大家可能想问机器是如何听从人类的命令的,其实并不是机器或者算法本身,而是一群
聪明的开发者智慧的结晶。他们与每一位西洋棋大师对话,汲取他们的经验,把其转化成
程式码和规则,建立了人类最强的西洋棋大师团队。但是这样的系统仅限于西洋棋,不能
用于其他游戏。对于新的游戏,你需要重新开始编程。在某种程度上,这些技术仍然不够
完美,并不是传统意义上的完全人工智能,其中所缺乏的就是普遍性和学习性。我们想透
过“加强学习”来解决这一难题。在这里我解释一下强化学习,我相信很多人都了解这个
算法。
首先,想像一下有一个主体,在 AI 领域我们称我们的人工智能系统为主体,它需要了解
自己所处的环境,并尽力找出自己要达到的目的。这里的环境可以指真实事件,可以是机
器人,也可以是虚拟世界,比如游戏环境;主体透过两种方式与周围环境接触;它先透过
观察熟悉环境,我们起初透过视觉,之后也可以透过听觉、触觉等,我们也在发展多感官
的系统;
第二个任务,就是在此基础上,建模并找出最佳选择。这可能涉及对未来的预期,想像,
以及假设检验。这个主体经常处在真实环境中,当时间节点到了的时候,系统需要输出目
前找到的最佳方案。这个方案可能或多或少会改变所处环境,进一步驱动观察的结果,并
回馈给主体
简单来说,这就是强化学习的原则,示意图虽然简单,但是其中却涉及了极其复杂的演算
法和原理。如果我们能够解决大部分问题,我们就能够搭建泛用人工智能。这是因为两个
主要原因:首先,从数学角度来讲,我的合伙人是一名博士,他建了一个系统叫“AI-XI
”,用这个模型,他证明在电脑硬件条件和时间无限的情况下,建一个泛用人工智能,需
要的资讯。另外,从动物和人类等生物角度来讲,人类的大脑是多巴胺控制的,它就在执
行强化学习的行为。因此,不论是从数学的角度,还是生物的角度,强化学习是一个有效
的解决人工智能问题的工具。
3、为什么围棋是人工智能难解之谜?
接下来,我要谈谈我们最近的技术,那就是去年诞生的 AlphaGo;希望在座的大家了解这
个游戏,并尝试玩玩,这是个非常棒的游戏。围棋使用方形格状棋盘及黑白二色圆形棋子
进行对弈,棋盘上有纵横各 19 条直线将棋盘分成 361 个交叉点,棋子走在交叉点上,
双方交替行棋,以围地多者为胜。围棋规则没有多复杂,我可以在五分钟之内教给大家。
这张图展示的就是一局已结束,整个棋盘布满棋子,然后数一下你的棋子圈出的空间以及
对方棋子圈出的空间,谁的空间大,谁就获胜。在图示的这场势均力敌的比赛中,白棋一
格之差险胜。
其实,要理解这个游戏的最终目的非常难,因为它并不像西洋棋那样,有着直接明确的
目标,在围棋里,完全是凭直觉的,甚至连如何决定游戏结束,对于初学者来说都很难。
围棋是个历史悠久的游戏,有着 3000 多年的历史,起源于中国,在亚洲,围棋有着很深
的文化意义。孔子还曾指出,围棋是每一个真正的学者都应该掌握的四大技能之一(琴棋
书画),所以在亚洲围棋是种艺术,专家们都会玩。
如今,这个游戏更加流行,有 4000 万人在玩围棋,超过 2000 多个顶级专家,如果你在
4-5 岁的时候就展示了围棋的天赋,这些小孩将会被选中,并进入特殊的专业围棋学校
,在那里,学生从 6 岁起,每天花 12 个小时学习围棋,一周七天,天天如此。直到你
成为这个领域的专家,才可以离开学校毕业。这些专家基本是投入人生全部的精力,去揣
摩学习掌握这门技巧,我认为围棋也许是最优雅的一种游戏了。
就像我说的那样,这个游戏只有两个非常简单的规则,而其复杂性却是难以想像的,一共
有 10170(10 的 170 次方)种可能性,这个数字比整个宇宙中的原子数 1080(10 的
80 次方)还要多,是很难穷举出围棋所有的可能结果的。我们需要一种更加聪明的方法
。你也许会问:为什么电脑进行围棋的游戏会如此困难?尽管 1997 年 IBM 的人工智能
DeepBlue(深蓝)打败了当时的西洋棋世界冠军 Garry Kasparov,围棋一直是人工智能
领域的难解之谜。我们能否做出一个算法来与世界围棋冠军竞争呢?要做到这一点,有
两个大的挑战:
一、搜寻空间庞大(分支因子就有 200 个),一个很好的例子,就是在围棋中,平均每
一个棋子有两百个可能的位置,而西洋棋仅仅 20。围棋的分支因子远大于西洋棋。
二、比这个更难的是,几乎没有一个合适的评价函数来定义谁是赢家,赢了多少;这个评
价函数对于该系统是重要的弯见。而对于西洋棋来说,写一个评价函数是非常简单的,因
为西洋棋不仅是个相对简单的游戏,而且是实体的,只要数一下双方的棋子,就能轻而易
举得出结论了。你也可以透过其他指标来评价西洋棋,比如棋子的机动性等。
所有的这些标准在围棋里都是不可能的,并不是所有的部分都一样,甚至一个小小部分的
变动,会整个改变格局,所以每一个小的棋子都对棋局有着重要的影响。最难的部分是,
我称西洋棋为毁灭性的游戏,游戏开始的时候,所有的棋子都在棋盘上了,随着游戏的进
行,棋子被对方吃掉,棋子数目不断减少,游戏也变得越来越简单。相反地,围棋是个建
设性的游戏,开始的时候,棋盘是空的,下棋双方再慢慢把棋盘填满。
因此,如果你准备在中场判断一下目前形势,在西洋棋里,你只需看看现在的棋盘,就能
告诉你大致情况;在围棋里,你必须评估未来可能会发生什么,才能评估现在的局势,所
以相比之下,围棋难得多。也有很多人试着将 DeepBlue 的技术应用在围棋上,但是结果
并不理想,这些技术连一个专业围棋手都打不赢,更别说世界冠军了。
所以大家就要问了,连电脑操作起来都这么难,人类是怎样解决这个问题的?其实,人类
是靠直觉的,而围棋一开始就是一个靠直觉而非计算的游戏。所以,如果你问一个西洋棋
选手,为什么这步这样走,他会告诉你,这样走完之后,下一步和下下一步会怎样走,就
可以达到什么样的目的。这样的计划,有时候也许不尽如人意,但是起码选手是有原因的

然而围棋就不同了,如果你去问世界级的大师,为什么走这一步,他们经常回答你直觉告
诉他这么走,这是真的,他们是没法描述其中的原因的。我们透过用加强学习的方式来提
高人工神经网络算法,希望能够解决这个问题。我们试图透过深度神经网络模仿人类的
这种直觉行为,在这里,需要训练两个神经网络,一种是决策网络,我们从网上下载了上
百万的业余围棋游戏,透过监督学习,我们让 AlphaGo 模拟人类下围棋的行为;我们从
棋盘上任意选择一个落子点,训练系统去预测下一步人类将作出的决定;系统的输入是在
那个特殊位置最有可能发生的前五或者前十的位置移动;这样,你只需看那 5-10 种可能
性,而不用分析所有的 200 种可能性了。
一旦我们有了这个,我们对系统进行几百万次的训练,透过误差加强学习,对于赢了的情
况,让系统意识到,下次出现类似的情形时,更有可能做相似的决定。相反地,如果系统
输了,那么下次再出现类似的情况,就不会选择这种走法。我们建立了自己的游戏数据库
,透过百万次的游戏,对系统进行训练,得到第二种神经网络。选择不同的落子点,经过
信赖区间进行学习,选出能够赢的情况,这个机率介于 0-1 之间,0 是根本不可能赢,
1 是百分之百赢。
把这两个神经网络结合起来(决策网络和值网络),我们可以大致预估出现在的情况。这
两个神经网络树,透过蒙特卡罗算法,把这种本来不能解决的问题,变得可以解决。我
们网罗了大部分的围棋下法,然后和欧洲的围棋冠军比赛,结果是 AlphaGo 赢了,那是
我们的第一次突破,而且相关算法还被发表在《自然》科学杂志。
作者: xhakiboo (xhakiboo)   2017-04-15 17:38:00
这算爆挂吗= =
作者: RozenMaiden ( )   2017-04-15 17:39:00
原文是中国新闻 http://tinyurl.com/mgqzrr7原po用爆卦而不用新闻来规避不得张贴中国新闻的板规
作者: infoman (路哲)   2017-04-15 17:42:00
这样就是违反板规啊
作者: lolic (lolic)   2017-04-15 17:43:00
作者: wxtab019 (天霜凝月)   2017-04-15 17:43:00
看过了
作者: snow3804 (snow3804)   2017-04-15 17:50:00
我文组的,说中文好吗
作者: wayne1228 (wayne1228)   2017-04-15 17:51:00
好文章
作者: appoo (熊吉吉)   2017-04-15 17:51:00
好文章啊,干嘛找人家麻烦
作者: wayne1228 (wayne1228)   2017-04-15 17:52:00
想学围棋要如何入门?
作者: hipmyhop (黑我帕)   2017-04-15 17:52:00
作者: higameboy (爱聊天的boy~)   2017-04-15 17:54:00
阿法狗知道什么是第一手大元吗
作者: iamyouruncle (youruncle)   2017-04-15 17:54:00
优文推个
作者: pro1028 (丸丸)   2017-04-15 17:55:00
我以为是alphago演讲...
作者: wayne1228 (wayne1228)   2017-04-15 17:55:00
人类的直觉应该是从小到大历练而成 电脑不是这么好模
作者: qwer1988 (宅宅工程師)   2017-04-15 17:55:00
跟我想的一样
作者: jolynn403 (揪令)   2017-04-15 17:57:00
很棒的文章

Links booklink

Contact Us: admin [ a t ] ucptt.com