Fw: [感想] 人机大战心得

楼主: LinJohn (猜心)   2016-03-22 08:31:21
※ [本文转录自 hikarugo 看板 #1My98kaf ]
作者: LinJohn (猜心) 看板: hikarugo
标题: [感想] 人机大战心得
时间: Tue Mar 22 08:30:34 2016
好读版 https://jintin.github.io/blog/2016/03/15/alphago/
AlphaGo跟李世石的五番棋最终以4:1结束了,让人赞叹算法的力量。
AlphaGo原理
围棋本身没有太多规则,就是一连串的黑白轮流下子,困难的是对每一次落子有太多选择
,而棋局又有太多个回合,所以让棋局的变化太多,要参透这门技术几乎是不可能。
既然这么麻烦那我们要怎么让电脑下围棋呢,可以从现实生活寻找灵感,人类社会做决策
有二种方式,一种是由该领域专家决定,另一种是多数表决。
教电脑也有这二种方式,一是把高手下棋的思维转成电脑的逻辑写成程式,电脑依据程式
的规则来决定怎么下,缺点是写出的程式策略决定了棋力的高低,而复杂的事物就伴随着
复杂的规则。
另一种方式是让电脑透过大量的资料自己归纳出如何下棋,人的思考有几种特性,人在做
一件不懂的事的时候会依据完成的结果来回馈自己,如果正确的话下次就会有更高的机率
做一样的决策,而失败的决策就比较不会再度发生,不断的循环就会减少犯错的可能。我
们可以把棋局分成很多层简单的小策略,透过一连串的策略选择让电脑学习怎样是对的怎
样是错的。只要有够多的资料电脑就可以慢慢学会如何做这些决策,也就学会了如何下围
棋。
AlphaGo就是依据大量的资料来学习的,有以下三个模组组成:
1. SL Policy Network
用KGS的3000万盘棋谱作为深度学习的资料,学习人类在棋局中如何走下一步,在模拟棋
局的时候,可以有效的减少搜寻的广度,不需考虑不必要下子的地方。
2. RL Policy Network
以SL为基础加强,自己跟自己对局1亿次,借由更多的资料不断进行参数调整优化预测更
好的下一步。
3. Value Network
给定任何盘面,分析黑白双方的胜率,在模拟棋局的时候,可以有效减少搜寻的深度,当
某点变化胜率太低就不需考虑以这点进行的变化。
综合三个模组,就可以得到一个很像人下围棋的电脑,知道要该下哪里、也会算变化分析
胜率,当胜率太低还会投子啊。
人脑 vs 电脑
虽然说电脑透过深度学习最后还是打败人类,但二者间还是有本质上的不同。
人类在下棋的时候,会有脉络思路,可以感觉出对方是好战或是保守,会感到压力、疲劳
、失误,计算能力也有限。这都是人的缺点,但人类强的是思考、学习的能力,人类不需
要看几千万盘棋才懂围棋,这点可说是完胜电脑。
而电脑是用资料在下围棋,当他决定下A点的时候只因为A点的胜率比其他点高,但并没有
其他原因。而且,虽然说AlphaGo是一种人工智能,但本质上只是大数据的统计分析,跟
一般网站推荐系统也没有太多不一样,离真正的人工智能还很遥远。
围棋比赛除了作为一门竞技,也是一门艺术。进退之间追求平衡,这部分恐怕只有人脑能
懂了。最后,李世石的败战感言也很感人啊,这大概是人跟电脑最大的不同吧。
虽然AlphaGo打败了我一个李世石,但并不能说,就是打败了整个人类。
未来
就算这次李世石并没有被打败,但理论上只要给电脑更多资料,总有一天还是可以赢人类
的,这一天总会到来、快或慢而已。那接下来呢,围棋会因此灭亡吗,还是会开拓一片新
的领域呢?相信借由电脑的辅助人类可以看到围棋更多的可能性,而电脑也需要更多人类
下的棋谱才能进步。
而作为一个通用的人工智能系统,围棋上的应用应该不是终点,各行各业都有机会引入,
读大学的时候很常听到的一句话是”十年后80%工作会消失,而十年后需要的工作现在还
没出现。”,变革的时代,代表的是挑战、也是机会,如果可以很平顺的转换到新科技的
世界,人类可以把更多的时间拿去思考、解决更重要的问题。
最后,如果哪天电脑开窍了会写程式,会有工程师想跟他比写程式吗?

Links booklink

Contact Us: admin [ a t ] ucptt.com