Re: [问题] 可否更改alphago的设定 darkseer PTT批踢踢实业坊

Re: [问题] 可否更改alphago的设定

楼主: darkseer 2016-03-11 13:05:59

先说我是个两日棋迷，可以等同于完全不懂围棋(可能有十几级?)，
实在班门弄斧..不过想要来讲一下我读AlphaGo论文的心得，
(论文连结:http://www.willamette.edu/~levenick/cs448/goNature.pdf )
希望能对这里的专业板友提供一点参考价值@@
然后这论文是一月发的，跟现在的AlphaGo很可能有所不同。
先说下面肯定有不少错误，请大家指正orz
(更新错误：感谢fgkor123的连结，写得比我好百倍，不过好像原作者关了orz)
感谢countingtls版友的启发，本来有些看不懂的地方被他指出重点突然就懂了XD
-
AlphaGo的运作原理(超级简化版)的四个部分：
(1) SL策略网络: (SL=监督式学习)
从数十万个棋谱学习，让类神经网络猜测职业棋手在每个盘面会下的一步，不搜寻。
这里可以达到57%的猜测准确率。
(让业余初段的旗手能自由翻阅棋谱来猜顶尖职业棋手的下一步应该可以做得远远更好?)
用这个网络而不搜寻，对Pachi(KGS业余2段)有12%胜率。
(1')展示策略(rollout policy，乱翻一通XD):
类似SL策略网络，但使用简单许多的棋盘特征来做判断。
展示策略只能达到24%的猜测准确率。
呼叫一次展示策略要用0.000002秒，相对于SL策略网络要0.003秒(1500倍)。
(2) RL策略网络: (RL=强化学习)
从SL策略网络开始自我改良，一直自己跟自己的变种下(还是不搜寻)。
每一局下到完为止，下的结果只问胜负不问差几目。
最后进化出来得到的RL策略网络不搜寻对Pachi有85%胜率。
(大概在这里可以想成只凭直觉完全不做计算而有至少业余二段的棋手)
补注: SL和RL策略网络其实不是真的猜最有可能的一步，而是给出每个步数认为的机率。
(3) RL助值网络:
用RL策略网络自己跟自己下棋+搜寻来建立，
这次的目的是建立一个网络来对每个盘面赋予一个分数，
大概类似于‘往后计算个几步，问问RL策略网络对得到的盘面有何看法’。
这个分数诞生于RL策略网络给与的回馈，与目数差无直接关系。
(4) 真AlphaGo:
用(1)SL策略网络，(1')展示策略和(3)RL助值网络一起来做判断基准，
(1), (3)的用法应该就是直接用来评分(两者具体用法不同，不过我自己还不太懂)，
但(1')的使用方法是以当下盘面开始自己跟自己下直到游戏结束用得到的结果评分。
然后用蒙特卡洛树搜寻法的变体。我个人的粗浅理解是:
(还蛮直觉的我觉得)
越好的落子点(机率越高&分数越高)就去计算越多步，
反过来用计算的结果来定义什么是好的落子。
最后被计算最彻底的一步，AlphaGo就判定为当下最佳的一手。
-
讨论:
1. 文章内有提到AlphaGo对CrazyStone(KGS业余6段)让四子的胜率是77%。
我是个大外行，不过如果假设是李世石是不是可以有高得多的胜率？
我的猜测是要让AlphaGo很好的学会玩让子还是有点障碍，
因为AlphaGo的力量本源是自己跟自己下来追求进步:p
而自己跟自己下让子只会是一方惨电另一方，听起来不是很有学习效率..
2. AlphaGo并不是严格意义上的追求最大胜率；让我觉得很奇妙与神秘的，
它追求最大胜率以及下起来最像职业棋士(SL策略网络)。
就在下读到的，它打一开始就不认得什么是目数差。
但反过来说，它所学习的职业棋士显然会考虑目数差，
所以某种意义上它还是有‘考虑’到的...
3. 论文里的AlphaGo并没有提到劫，就算AlphaGo真的很讨厌劫，
它多半也不知道他在讨厌的东西是劫。
以我这个外行看来，一种可能是：
‘引入这种又臭又长的结果会让我在搜寻范围内可预见的胜率变低。’之类的@@
我自己是认为教AlphaGo去刻意避免劫不大可能：他的计算公式是自己生成的，
人类很难重新去读懂。加入刻意的人工设计多半会弱化它。
4. 由于(1')展示策略的存在，因此不管AlphaGo的搜寻计算(=蒙特卡洛树)考虑多少盘面，
他其实还有加一个会粗糙的另外计算到底的设计。
所以如果一个劫所展开的变化‘不难’，那不管后续有几百步AlphaGo应该都是能照顾的。
(我猜这是AlphaGo理解循环劫的主要方式)

作者: Senkanseiki (戦舰栖姫) 2016-03-11 13:12:00

AG：这种烦的要死又没增加多少胜率的东西我才懒得算

作者: arnold3 (no) 2016-03-11 13:20:00

给AlphaGo打电动打几天就赢过一堆人类高手哪知道他怎学

作者: hdjj (hdjj) 2016-03-11 13:27:00

避免打劫的确可以简化计算. 电脑演算好像是有这种趋势

作者: lwei781 (nap til morning?) 2016-03-11 13:30:00

train 久了以后应该会往胜率偏过去不只打劫, 能简化的几乎都会选简化就算"损"

作者: hdjj (hdjj) 2016-03-11 13:33:00

只是我们所谓的简化和电脑的简化可能又有所不同.对我们来说计算十几步叫多,对电脑而言可能是三四十步

作者: Senkanseiki (戦舰栖姫) 2016-03-11 13:40:00

根据前几篇，AG是透过胜率来计算，也就是说除非只有拼劫才能胜，不然没有必要一定得开劫争，而且根据高手分析，AG常常选择花样少但是也相当有力的步数，可能这种下法也让花样多的劫争变得不利当然身为一个五日棋迷，无法确保自己说的有没有意义，但是看了很多高手的分析，也隐约觉的自己好像可以看懂其中变化了，这也是围棋的一道福音不是吗？让更多人对围棋有兴趣！

作者: sapc87952 (阿家) 2016-03-11 13:42:00

你说会避免打劫有点矛盾 1.第二场是李世石有打劫的机会而不是AlphaGo 如果小李真的打结了Alphago也不能避免 2.RL跟SL策略网络一定也有把打劫思考进去因为他是为了求胜而不是要求稳况且棋谱肯定也有打劫的部分

作者: NaoGaTsu (那欧卡兹) 2016-03-11 13:43:00

若打劫会让盘面复杂化，从而让胜率降低(或不易计算胜率)依阿发狗的算法，的确会尽量避免打劫。

作者: Bingojkt (－Bingo!－) 2016-03-11 13:43:00

回避劫的观点我非常认同，就像赢定不会跟对手打半劫一样

作者: NaoGaTsu (那欧卡兹) 2016-03-11 13:44:00

在盘面优势上避免打劫，我想多数的高段都会这样下，也理

作者: Bingojkt (－Bingo!－) 2016-03-11 13:44:00

因为打劫就会让盘面复杂度增加，电脑简化局面一定会避免

作者: sapc87952 (阿家) 2016-03-11 13:45:00

我觉得现在大家还会觉得打劫会复杂电脑的计算有点小看Aja Huang跟AlphaGo了

楼主: darkseer 2016-03-11 13:46:00

To sapc87952: 抱歉我确实外行XD，我的意思是说如果有

作者: sapc87952 (阿家) 2016-03-11 13:46:00

相反来说那是因为目前AlphaGo没有在盘面落后过所以不会主动挑起劫争

作者: aegis43210 (宇宙) 2016-03-11 13:46:00

只要接下来三盘棋，希望李世石能打一次劫争就好了

作者: sapc87952 (阿家) 2016-03-11 13:48:00

但是如果是人类主动挑起劫争那就不一样了这也是李世石第二盘可惜的原因而大家会乱传有签保密协定就是因为目前七盘棋都没有人类挑起劫争

楼主: darkseer 2016-03-11 13:49:00

嗯，我也是猜测AlphaGo优势时会倾向简化

作者: sapc87952 (阿家) 2016-03-11 13:49:00

Alphago会在优势盘面避免打劫我认同但人类要打劫的话他还是得应战的XD

作者: Bingojkt (－Bingo!－) 2016-03-11 13:49:00

话说回来，膜拜原PO数学大神XD

楼主: darkseer 2016-03-11 13:50:00

这么一说突然觉得对李九段不太公平，被期待要去制造劫..不过这应该也是它接下来的合理策略突破点吗XDsorry, 我是说李九段合理的策略突破点

作者: NaoGaTsu (那欧卡兹) 2016-03-11 13:51:00

劫争需要精算，但精算力上，人脑就是不如电脑，就算是职棋，也很难不对自己的精算力正确与否心生怀疑吧...

作者: princeeeeeee (我们班的冠杰) 2016-03-11 13:53:00

江哥发文必推

楼主: darkseer 2016-03-11 13:53:00

To lwei781: 有点神祕的是最后的搜寻参考SL策略网络，而非RL策略网络，论文里有解释为什么比较好。类似RL的策略网络是被训练来找出最高机率而不是一致的判断机率，不过我还是觉得挺怪..

作者: shellpig (贝壳) 2016-03-11 14:00:00

若第二场有打劫但输了就会被说精算一定输电脑劫个屁xD

作者: tonyselina (叫声拔拔) 2016-03-11 14:02:00

我要看sky哥点评理工宅darkseer的分数 (滚动)

作者: NaoGaTsu (那欧卡兹) 2016-03-11 14:04:00

shellpig XDDD 超中肯 XDDDD

作者: goldduck (哥达鸭) 2016-03-11 14:04:00

重点是输赢颗颗

作者: TaiwanUp (以运动为本的道路环境) 2016-03-11 14:07:00

其他软件的打劫能力如何? 是不是跟alphago一样?

作者: NaoGaTsu (那欧卡兹) 2016-03-11 14:13:00

Zen不是还不会打劫吗

作者: MicroB ( ) 2016-03-11 14:22:00

所以这RL分数算是用结果评价了古往今来的布局让AG选个最猛的来用吗?

作者: TaiwanUp (以运动为本的道路环境) 2016-03-11 14:26:00

zen不会打劫那AlphaGo应该也选不到太多劫争的盘面自我对局的数据库里面没什么劫争的棋局(?)

作者: NaoGaTsu (那欧卡兹) 2016-03-11 14:29:00

AlphaGo若有被喂过谱，不可能没有对劫争上的理解。aja也不会放掉这一块弱区不去处理。

楼主: darkseer 2016-03-11 14:30:00

To MicroB: 我的理解是SL网络是学棋谱，RL是自我改良版不过SL不真的‘用结果评价’，它就是直接学的样子..当然可能AlphaGo再选择"学哪些"的时候参考了结果如我没理解错RL也不参考历史结果，而是‘自己试试看’XD

作者: TaiwanUp (以运动为本的道路环境) 2016-03-11 14:33:00

可是如果zen不会打劫那喂再多棋谱他还是会避开

楼主: darkseer 2016-03-11 14:34:00

棋谱应该不是来自Zen，没有提到(或是我漏看? orz)有提到来自KGS，我猜应该是真人棋谱

作者: aegis43210 (宇宙) 2016-03-11 14:36:00

所以SL网络会喂所有李世石的棋谱？

作者: MicroB ( ) 2016-03-11 14:37:00

恩用"自己试试看"的结果来评价哪个地方该厚该薄蛮有意思的之前有人说让两个一段互下几千盘可以升到两段但升不到上段看来那是下的不够 XD 互下几千万盘然后有系统的评价就上九段了 XD

楼主: darkseer 2016-03-11 14:40:00

那两个两段互下几千盘可以升到三段吗XDTo aegis43210: 李九段这样的大师找的到应该就会喂吧

作者: MicroB ( ) 2016-03-11 14:42:00

是说两个系统升上去后会越来越接近就收敛了

楼主: darkseer 2016-03-11 14:42:00

不过我认为AlphaGo不太可能专门为了李九段去优化多少，我比较倾向这次AlphaGo根本不知道它在跟李九段下棋，理由和关于劫争的讨论一样－AlphaGo已经自成一体了XD

作者: MicroB ( ) 2016-03-11 14:44:00

不过看来九段和一段的棋感差距可以用"勤能补拙"来弥补只要多试几次然后每次都记下来不犯一样的错(输给另一个AG

作者: hdjj (hdjj) 2016-03-11 14:45:00

五级的一方通行杀两万个妹妹可以升到六级.(错棚

作者: MicroB ( ) 2016-03-11 14:46:00

的谱) 只懂一段的厚薄大局观也可以赢九段的大局观

作者: wukevinboy (wukevinboy) 2016-03-11 15:12:00

推你，明显有做过功课发问!

作者: ggoutoutder (女朋友的左手) 2016-03-11 15:15:00

重点是小李为什么不走打劫拚搏的这种气势没有出来能不能赢当然不知道但选择安乐死实在是失望打入黑地那边的劫争弹性和后来的夹碰劫争的下法没有下出来难免让职业选手感到不解

楼主: darkseer 2016-03-11 15:39:00

对了，可以问大家讨论1.的那个胜率正常吗?对KGS业余六段的Crazystone AI胜率77%那个(让四子，忘了讲XD)

作者: lwei781 (nap til morning?) 2016-03-11 15:54:00

那是以前吧，现在可能更高

楼主: darkseer 2016-03-11 15:57:00

嗯，就是说我没有概念要怎样程度的职业棋士可以有77%的胜率让四子赢KGS业余六段，主要想估计AG有没有遇强则强不过像你说的，也不知道这段时间AG进化了多少..

作者: lwei781 (nap til morning?) 2016-03-11 16:01:00

大量对战时， AI 的 bug 点会被抓所以总量要考虑100盘 77胜和 10000盘 7700 胜不太一样万盘case 后面搞不好是5000盘连胜

作者: kennyluck (Kenny) 2016-03-11 16:43:00

问问darkseer支不支持Thomas Hales这些人的工作？早点把AI推到形式数学去。

楼主: darkseer 2016-03-11 16:52:00

我...口头支持orz

作者: lwei781 (nap til morning?) 2016-03-11 17:07:00

Hales 对的话欠他一个 fields 啊

楼主: darkseer 2016-03-12 04:39:00

现在才看懂SL策略网络那一节有两个部分orz，赶快改..

继续阅读