Re: [爆卦] AlphaGo发现自己79步失误 yamiyodare PTT批踢踢实业坊

Re: [爆卦] AlphaGo发现自己79步失误

楼主: yamiyodare (shantotto) 2016-03-13 19:53:04

※ 引述《tlchen (台湾加油)》之铭言：
: 从这两个 twitter 来看， AI 在 79 时仍认为自己有 79% 的胜率，
: 直到第 87 手时，才发现胜率骤降。四日棋迷猜测如下：
: AI 估计胜率是经由之后的模拟，白 78 手被认为神手，但或许是之后
: 的巧妙变化是不明显的，所以 AI 无法知道这手有这么大的功用，或
: 是说，无法准确的评估此时的盘面。
value network 是给一个盘面 (361 个输入黑/白/空) 直接告诉你胜率.
基本上盘面几乎不会重复, 所以每一个盘面都是 AlphaGo 或人没看过的.
如果是人, 中盘之后可能会开始点空估计目数.
而估错最可能发生在以为的活棋其实是死棋, 比如说进行中的攻杀.
value network 是喂给它千万盘面, 然后跟它说最后是赢是输训练出来.
遇到新的盘面, value network 根据之前的经验 (神经连结权重) 吐出结果.
如果单纯喂 "361 个输入黑/白/空" 进去训练一定完蛋,
因为这样变成单纯的形态学, 长得像某个样子就以为会输或会赢.
围棋很多时候差一路就差很多 (好手的旁边常是恶手)
所以还会加入 "剩下的气数" "提子数" "手顺" "征子" 等等资讯进去训练.
如果人类认为 79 手的盘势黑棋大劣了, 那么 79 手的盘面 value network
就应该吐胜率陡降的值出来, 而不是等到 87 手的盘面才反应.
如果 AlphaGo 知道 79 手 (甚至更早) 的盘面劣势, 前几手就会避免走上这个局面.
但到 87 手才知道劣势, 这时候已经走上不归路.
AlphaGo 团队回去一定是在研究这种盘面为什么会估错, 以及要如何调整训练方式.
: 这提供了要对付目前这版 AlphaGo 的方法，你最好下一些方法是：接
: 下来对你的最佳解跟次佳解，结果会差很多，这样 AI 用模拟的，就有
: 机会误判。如果你下的棋，接下来的应对，结果都差不了太多，那 AI
: 自然估得准。让它估不准，才会在接下来还没估准前，继续出错。
这真的要拼 AlphaGo 形势判断错误.
但是我们不知道什么样的盘面可以让 AlphaGo 形势判断错误, 劣势误以为优势.
也许是大规模攻杀, 然后又走进特定的棋型 (像小李今天那一手) 让它误判.

作者: allenmusic (艾伦) 2016-03-13 19:55:00

我也这样认为这么晚才估出来已经有很大的问题后面alphago还演变成一堆自杀下法

作者: Maybetrue (已婚) 2016-03-13 19:58:00

期待Google公开AlphaGo秀斗的关键原因。

作者: allenmusic (艾伦) 2016-03-13 19:58:00

google干脆大方公开程式码让全世界写程式的去bug不是更快???

作者: MaseratiGTS (海神三叉戟) 2016-03-13 19:59:00

这样google还要混吗

作者: aegis43210 (宇宙) 2016-03-13 19:59:00

所以79~87的自杀打法是他认为胜率7X%时下出来的？

作者: signm (sin) 2016-03-13 19:59:00

所以alphago应该只能预估是当下而不是后面局势

楼主: yamiyodare (shantotto) 2016-03-13 20:00:00

它会预估后面, 但若估错得太早已经来不及救了.

作者: signm (sin) 2016-03-13 20:03:00

那应该说alphago目前还没有大局观

楼主: yamiyodare (shantotto) 2016-03-13 20:04:00

它有大局观而且很强喔只是跟人一样不是完全正确

作者: allenmusic (艾伦) 2016-03-13 20:05:00

我认为alphago自我锻炼几百万几千万盘应该多少会下

作者: DemonElf (LdsFish) 2016-03-13 20:05:00

不是Alphago只能估当下局势，而是他并没有完全算完(正是

作者: blackwindy (黑色的风) 2016-03-13 20:05:00

阿法狗就刚好没算到那步不是没有大局观

作者: allenmusic (艾伦) 2016-03-13 20:06:00

出这种自杀自爆的棋路但google公司应该没花时间去

作者: blackwindy (黑色的风) 2016-03-13 20:06:00

没有大局观还能屌打李喔? 怎么可能

作者: DemonElf (LdsFish) 2016-03-13 20:06:00

因为现今电脑还没办法完全计算完所以才会只有Alphago能

楼主: yamiyodare (shantotto) 2016-03-13 20:07:00

它有算到... 但是劣势误以为优势所以还是往那边下

作者: allenmusic (艾伦) 2016-03-13 20:07:00

还好李世石再这五盘帮google省了不少检验时间

作者: blackwindy (黑色的风) 2016-03-13 20:08:00

你怎么能那么确定他有算到?

作者: DemonElf (LdsFish) 2016-03-13 20:08:00

在有限的时间内去找出胜率最高的位置下，而且就像black提到的他还带有随机性，也就是说即使重新下一次今天的棋

作者: HamalAri (哈马‧阿里) 2016-03-13 20:09:00

选择不是看value network和MCTS的综合结果吗？没只看其中一种吧

作者: DemonElf (LdsFish) 2016-03-13 20:09:00

Alphago下出来的结果理论上也有很大机会是不同的

楼主: yamiyodare (shantotto) 2016-03-13 20:10:00

因为小李下了之后好几手 AlphaGo 居然还以为自己优势

作者: blackwindy (黑色的风) 2016-03-13 20:10:00

就是连续没算到吧至于为什么没算到就是要看了

作者: allenmusic (艾伦) 2016-03-13 20:10:00

我是猜他重心花在计算自己下一步怎下胜率高没花太

作者: DemonElf (LdsFish) 2016-03-13 20:11:00

不觉得AI这样的"以为"其实跟人类有很类似的一面吗

作者: blackwindy (黑色的风) 2016-03-13 20:11:00

看到底是算法设计缺陷随机有问题还是其他有的没的

作者: allenmusic (艾伦) 2016-03-13 20:11:00

多时间去帮对方计算对方下一步下那里胜率如何因为程式是人想写出来的阿哈哈当然会有人类缺陷

作者: dukemon (dukemon) 2016-03-13 20:12:00

我记得之前不是有一局就想说他可能大局观不足，但李原本

楼主: yamiyodare (shantotto) 2016-03-13 20:12:00

给一个盘面要估出胜算本来就是超难题有很大进步空间

作者: blackwindy (黑色的风) 2016-03-13 20:12:00

他论文有提到他会预测对方接下来怎么下别乱猜

作者: dukemon (dukemon) 2016-03-13 20:13:00

想攻的地方被AlphaGO先行稳固

作者: NaoGaTsu (那欧卡兹) 2016-03-13 20:16:00

推这篇，解说清楚。

作者: goldduck (哥达鸭) 2016-03-13 20:30:00

所以合理怀疑87手是被插入执行有被动手脚之嫌

作者: logus (Cosmos) 2016-03-13 20:31:00

这ai就是模拟人类脑神经的产物他本来就很像人他跟人的差别是他不眠不休的钻研围棋而且也只会下围棋这种学习型ai甚至可以发展出自己的棋风比如阿发狗的胜率流那是他吃玩棋谱之后觉得最好赢的下法比较可怕的是他很少犯错没有情绪你不能知到自己是否已经让ai动摇

作者: lolylolyosu (3-1次元) 2016-03-13 20:40:00

小李复活我觉得没话说但是阿发狗的防御明显掉太多了这我认为有问题不太可能黑51那边明显放给人杀的

作者: Uizmp (黑袍法师) 2016-03-13 20:42:00

也许这就是稳稳的赢 vs 赢多一点以避免后面会出错间的取舍

作者: chiangburger (汉堡) 2016-03-13 20:55:00

重金聘请的测试工程师还真的找到bug~

作者: Marino (马利诺) 2016-03-13 21:11:00

以deepmind的原始概念来说它的系统每做一个动作它就要被告知分数是增减或不变也就是一个游戏是单纯的分数升降 deepmind通过学习就必胜但围棋难的是每下一手并没有明确的分数升降所以它才要估胜率来当做一种分数所以要修的重点就是估算这部分不然其他结构都是一样的deepmind也可以拿来玩星海只是同样要给它一个算分系统

作者: ilove88th (Denpa-Girl) 2016-03-13 21:56:00

算法本来就有随机性阿

作者: ShenMue (莎木) 2016-03-13 22:15:00

请问一下估计胜率这种东西有可能多报吗？例如它估计49%~79%，连它自己都不敢肯定会收敛到49还是79然后它就先吐79%给人看这样?

作者: DemonElf (LdsFish) 2016-03-13 23:59:00

胜率本来就是一个统合比例了，怎么会是一个范围XD

作者: birdy590 (Birdy) 2016-03-14 00:01:00

http://zhuanlan.zhihu.com/yuandong/20607684这几个辅助 MCTS 的网络很复杂也很敏感需要大量的调校"估计胜率"是计算的结果, 这盘棋的状况显然是出错了

继续阅读

[心得] 不会下棋也能懂第78手挖到底有多神forfunmerely [讨论] 算法上的Singularity(奇异点)mathbug [讨论] 本版赌盘将开出25倍或13倍的超高奖金zkow [新闻] 陈耀烨:盼亲自对决AlphaGo 钦佩李世石zkow [旧闻] 李世石：若重来不选围棋 3分钟就答应谷歌sck921 Re: [爆卦] AlphaGo发现自己79步失误tlchen [心得] Alphago的弱点cscscscs22 [新闻] 李世石申请最终局执黑称这样获胜更有意义zkow [新闻] 黑嘉嘉赞李世石有勇气AAAC [情报] 详讯：围棋人机大战第四局李世石赢得首胜pf775