Re: [讨论] 电脑弱点:中腹有打劫可能的复杂生死战?

楼主: ilw4e (可以吃吗?)   2016-03-14 17:25:33
※ 引述《Vonix (台湾大赌场欢迎您)》之铭言:
: 我尝试用一句话来讲ALphaGo的弱点
: 昨天AlphaGo第一次暴露出弱点,不知道是不是李世石有意为之?
: 李世石在左右方都避开了战斗,却在大局不利时才在中央掀起战斗,
: 从盘后解析可以看出,白78神手挽回了局面,但若黑棋应对得宜,
: 局面其实还是细微;但却造成电脑崩溃自爆。
: 从机器的角度来理解,中腹战斗比边角更复杂难算,且昨天的例子有
: 可能形成大劫争(但打下去黑棋整体也没有不利),电脑在这种CASE
: 爆掉,不知道第五盘李世石会不会再度制造这种局面?
我觉得人一开始误会了电脑的强处与弱处,也许是小李前几盘一直无法突破的关
键。
多数人觉得电脑布局或大局观应该很弱,因为变化太多,但这可能反而才是电脑
的强处。人类学布局的棋书通常是给几个选项让人去分辨哪个点更大,但这其实
很难估计的,很多解只是方向配合或"感觉上"较佳,是否如此难以验证。但电脑
是用海量的模拟资料的胜率来决定落点,假设电脑是九段实力。他自我对弈了那
么多盘,如此选出的著点更准确是颇有可能的。
所以这几盘看得出电脑对厚势的利用或是对弱棋的处理下得非常好。当然电脑应
该不知道厚势是什么,但他用海量的模拟下去就会发现某些著点因为能和厚势搭
配自然胜率高。而电脑也会适时补弱棋,因为模拟后应该会发现不补会让胜率下
降。
而电脑真的不及人类的可能反而在于攻杀,而且是要较大范围延伸且手顺较复杂
的攻杀(范围太小电脑的模拟应该可以把所有情况都跑完)。一开始多数人都假设
电脑对于攻杀的细算应该不可能出错,因为可以暴力穷举法,但正因为AG不是用
穷举法,反而高段棋士对于区域的细算会更接近穷举法,也就是更接近围棋上帝
,所以可以占优。
人在算攻杀的时候靠经验可以把可能落子侷限在非常少数的著点,并且细算其中
所有变化。而且变化中可能部分手顺是固定的,对人来说又把问题变简单很多。
但对电脑来说其他各种不相干的点他都要考虑,人类所谓的必然解对他来说也不
是必然(像小李昨天说只此一手,AG字典里绝对没有只此一手这种事),自然有机
会选错点或误判情势。第二盘的左下处理或昨天中间被手筋一挖就当机都是这种
较大范围的攻杀。
前几盘看得出来电脑是能走厚就走厚,能补棋就补棋,没什么机会让小李搞出复
杂攻杀,到昨天才第一次出现。
电脑好似还有一个问题就是落后时下出的各种大亏损无理手。当然可以理解电脑
的逻辑就是:这样下你不应我就赢了所以胜率很高,但这对人类是没用的。相对
于之前有人假设电脑落后会变更强因为要追回来,目前看起来反而是电脑落后就
走远了,因为它的追棋方式对人类来说是毫无意义的只会让自己越亏越多胜机越
渺茫。
作者: papawalk (~自由之翼~)   2016-03-14 17:32:00
这论点很有道理
作者: birdy590 (Birdy)   2016-03-14 17:35:00
还有一个可以利用的明显弱点, 就是棋手跳出一般作战区域时, 可能造成 MCTS 前面计算的结果全部作废 要重新计算
作者: aaaba (小强)   2016-03-14 17:38:00
alphaGo下一手的候选机率也不是集中在局部区域
作者: birdy590 (Birdy)   2016-03-14 17:38:00
所以有先手的时候可以选择适时换边攻击, 占电脑的便宜通常都是 至少排在后面的棋步 算的深度就不会一样尤其是中盘之前 因为选择性太多 平常不可能都算的很深
作者: goldduck (哥达鸭)   2016-03-14 17:40:00
毫无意义会自杀的棋要用机制挡住
作者: birdy590 (Birdy)   2016-03-14 17:41:00
楼上还是没搞懂啊... 这种违背开发原意的事情不可能做的最多再设计一些训练方式想办法教会它...
作者: goldduck (哥达鸭)   2016-03-14 17:42:00
这是安全机制 加进去有什么问题吗
作者: birdy590 (Birdy)   2016-03-14 17:42:00
其它开发者也注意到它完全不理会局部死活和对杀分析
作者: s9209122222 (海海海)   2016-03-14 17:42:00
这样就不是他自己学会了…
作者: birdy590 (Birdy)   2016-03-14 17:43:00
因为不是要制作围棋软件, 而是想办法教会这套系统下围棋
作者: ForeverOrz (Lumis eterne)   2016-03-14 17:43:00
推这篇 某人的发言真的可以不用理会 夏虫语冰
作者: goldduck (哥达鸭)   2016-03-14 17:43:00
不然征子就要跑吗
作者: s9209122222 (海海海)   2016-03-14 17:43:00
这软件下围棋只是顺便
作者: birdy590 (Birdy)   2016-03-14 17:44:00
过程中发现问题设法改良, 将来都可能直接用在其它领域如果只是下棋的话, 哪会有这么多大公司相继投钱进来研究
作者: sadmonkey (下雨天)   2016-03-14 17:48:00
其实安全机制也没说错,今天会发生胜率狂跌就相当于发
作者: NaoGaTsu (那欧卡兹)   2016-03-14 17:49:00
除了最后的应手部分推论怪怪的,基本上蛮合理的。
作者: sadmonkey (下雨天)   2016-03-14 17:49:00
生超出原先AI预期的情况,就围棋来看AI的处理还有很大
作者: Uizmp (黑袍法师)   2016-03-14 17:49:00
AG有发现胜率狂跌啊, 只是已经来不及了
作者: sadmonkey (下雨天)   2016-03-14 17:50:00
的进步空间,就像电动车总不能突然有个突发事件,车子
作者: goldduck (哥达鸭)   2016-03-14 17:50:00
本来就要考虑安全机制好吗 一个没有安全机制的系统是能商业化?
作者: wnglon (冷面笑匠)   2016-03-14 17:51:00
要注意设安全机制也是会把好棋下烂
作者: Uizmp (黑袍法师)   2016-03-14 17:51:00
问题是现在没有要商业化啊, 现在单纯只想看ML的效果而已
作者: wnglon (冷面笑匠)   2016-03-14 17:52:00
这不是虽便说说就能做到
作者: NaoGaTsu (那欧卡兹)   2016-03-14 17:52:00
AlphaGo从一开始就没有要商业化,那只是研究人工智能中
作者: birdy590 (Birdy)   2016-03-14 17:52:00
现在还研发阶段 加上这种安全机制反而就看不出问题了
作者: goldduck (哥达鸭)   2016-03-14 17:52:00
既然要谈 这个原来不用加安全机制 那谷哥的自动车你可以去做了
作者: birdy590 (Birdy)   2016-03-14 17:53:00
发现问题直接想办法掩盖掉不算是什么好方法吧 /_\
作者: NaoGaTsu (那欧卡兹)   2016-03-14 17:53:00
google的无人车是已经有在做了啊,只是还没量产商业化
作者: wnglon (冷面笑匠)   2016-03-14 17:53:00
你要设定好的安全机制 前题你实力要有李世石水准才行
作者: wnglon (冷面笑匠)   2016-03-14 17:54:00
没法理解棋理 要怎么定义好的安全机制
作者: sadmonkey (下雨天)   2016-03-14 17:55:00
问题的根源通常比想像中的复杂太多也太困难了
作者: birdy590 (Birdy)   2016-03-14 17:56:00
其实 AlphaGo 现在的架构比较接近工艺制品, 元件都是别人做过的现成理论, 但是凑起来整合的部份没有人做过
作者: wnglon (冷面笑匠)   2016-03-14 17:56:00
这种非统计程式设计 通常比需要对该领域非常熟悉才行
作者: sadmonkey (下雨天)   2016-03-14 17:57:00
里面有太多细节,包括MC法中常为了效率而会沿用前几步
作者: birdy590 (Birdy)   2016-03-14 17:57:00
已经算过的东西, 盘面没有改变能用的一定是直接继续用啊所以我才会说 可能状况下设法尽量跳出原有的树有便宜占
作者: sadmonkey (下雨天)   2016-03-14 17:58:00
的支状来帮忙运算,就下围棋获胜这个议题,目前看来就
作者: blackwindy (黑色的风)   2016-03-14 17:58:00
只是单纯工艺是上不了nature的 他还是有创新的地方至少他凑的起来而且证实有效 一般乱凑下场就是垃圾
作者: birdy590 (Birdy)   2016-03-14 17:58:00
整合这些不同领域的技术没那么容易, 所以才会被认为至少
作者: goldduck (哥达鸭)   2016-03-14 18:00:00
损棋自杀棋不下 加进去检查这没有很困难
作者: birdy590 (Birdy)   2016-03-14 18:01:00
什么叫损棋自杀棋? 不做死活分析意思已经够明白了吧
作者: goldduck (哥达鸭)   2016-03-14 18:01:00
人家都有安全机制 送菜棋也是不下的
作者: sadmonkey (下雨天)   2016-03-14 18:01:00
随便举一个方法,也许要多弄几组黑贴目不同的决策函数当胜率低于40%时用不同的黑贴目策略来下,就可以改善一
作者: birdy590 (Birdy)   2016-03-14 18:02:00
就算真要做 他们应该也会选择想办法教会电脑什么是死活
作者: sadmonkey (下雨天)   2016-03-14 18:03:00
次想直接逆转的模式,而能靠着一步步慢慢追目来获胜
作者: birdy590 (Birdy)   2016-03-14 18:03:00
可能的改变是调整不同时期的权重, 现在是固定 0.5/0.5
作者: wnglon (冷面笑匠)   2016-03-14 18:03:00
简单的程式判断都是用 && == <= >=
作者: Uizmp (黑袍法师)   2016-03-14 18:03:00
只能说, 电脑下棋的数量还远远不够啊 (?
作者: MicroB ( )   2016-03-14 18:03:00
那应该把布局书丢了学alpha流布局等到中盘在用人类算法XD
作者: birdy590 (Birdy)   2016-03-14 18:04:00
FB 的田博士认为这不一定好(他选择完全不用估值网络)
作者: sadmonkey (下雨天)   2016-03-14 18:04:00
目前的AI还不是完全靠自我学习出来的,很多策略都还是
作者: wnglon (冷面笑匠)   2016-03-14 18:05:00
你有用过吗 参数怎么设定 算法怎么设计 不是随便说说的
楼主: ilw4e (可以吃吗?)   2016-03-14 18:05:00
现在AG这个死活不懂纯靠棋感跟机率就能把职9杀成这样真的猛
作者: goldduck (哥达鸭)   2016-03-14 18:05:00
型是判断本来就会加入死活判断
作者: birdy590 (Birdy)   2016-03-14 18:05:00
? 走子网络/rollout/估值网络 都是 100% 学习得来
作者: sadmonkey (下雨天)   2016-03-14 18:05:00
沿用棋谱,要完全从知道规则用乱数开始学可能要花很多
作者: birdy590 (Birdy)   2016-03-14 18:06:00
人类做的事情是尽量帮助它有效率的学习
作者: sadmonkey (下雨天)   2016-03-14 18:06:00
年,google执行长也说了这是他们未来的目标
作者: goldduck (哥达鸭)   2016-03-14 18:07:00
不作死活分析就无法知道局势好吗
作者: sadmonkey (下雨天)   2016-03-14 18:07:00
基本策略函数还是从人类棋谱当初始条件
作者: birdy590 (Birdy)   2016-03-14 18:07:00
田博士也觉得很厉害 因为这个估值网络有表现出死活判断的能力 只是看来还有些缺陷
作者: sadmonkey (下雨天)   2016-03-14 18:08:00
要让电脑从乱数下点了解到星位最佳绝对不是三千万盘能知道的,那可能是数亿数百亿盘的天文数字
作者: birdy590 (Birdy)   2016-03-14 18:09:00
这里的"三千万盘"其实是指训练估值网络的过程, 但是
作者: profyang (prof)   2016-03-14 18:09:00
同意 大型攻杀电脑要算清真的也不是很容易的 人类未必会输...
作者: wnglon (冷面笑匠)   2016-03-14 18:09:00
下错一步就全死 即使下的顺序不一样
作者: wnglon (冷面笑匠)   2016-03-14 18:10:00
这电脑下法这么跳跃 会全下对吗
作者: sadmonkey (下雨天)   2016-03-14 18:11:00
也许我记错了,不过之前访谈有提到下次目标是从零开始
作者: birdy590 (Birdy)   2016-03-14 18:11:00
不是要全下对 这部份要保留随机性才好 否则反而会变弱它是希望训练过程出现各种各样不同的状况 所以前期用
作者: wnglon (冷面笑匠)   2016-03-14 18:12:00
跟星海ai玩 只要够偷 玩死对方不是难事不知能不能应用在围棋上只要偷到一个重要的棋 局势就会崩盘
作者: birdy590 (Birdy)   2016-03-14 18:14:00
SL网络确保走子有多样性, 后面再改用RL走到完提高精确度
作者: wnglon (冷面笑匠)   2016-03-14 18:15:00
只是第三盘的劫杀 李40看样子是输了不过也是因为时间不够
作者: birdy590 (Birdy)   2016-03-14 18:16:00
这种作法是不是够好目前没人知道 所以才需要测试工程师
作者: goldduck (哥达鸭)   2016-03-14 18:16:00
有点机率用偷的方式
作者: FrozenMoment   2016-03-14 18:23:00
觉得可以加入危机意识网络,当有危机时启动深入分析
作者: aegis43210 (宇宙)   2016-03-14 18:28:00
围棋真的是一个很好的测试AI水平之竞技
作者: bbbtri (cycling)   2016-03-14 18:42:00
实战测试的前提是要拐到一流的棋手陪你玩啊 lol
作者: goldduck (哥达鸭)   2016-03-14 18:54:00
如果看到职业看到97 101应该是不会来下的
作者: birdy590 (Birdy)   2016-03-14 18:55:00
职业棋士如果看了觉得很弱很简单, 真的上去会死的很难看
作者: goldduck (哥达鸭)   2016-03-14 18:55:00
不过第四盘可以确定 谷哥测到他想要的一些额外的事
作者: birdy590 (Birdy)   2016-03-14 18:57:00
对照当时局面那一连串参数变化, 对未来改进方向很有价值
作者: MicroB ( )   2016-03-14 19:00:00
不过蛮好奇AJA没有测过让AG在极劣下下过棋吗?还是说不是每一种劣势AG都会发疯? 或是97手时李世石赢的其实比想像还多
楼主: ilw4e (可以吃吗?)   2016-03-14 19:18:00
这样想用雪崩类复杂定石也可能可以婊到电脑
作者: MicroB ( )   2016-03-14 19:20:00
可是如果是定石 AG的走子网络来自职棋不容易错吧?
楼主: ilw4e (可以吃吗?)   2016-03-14 19:26:00
职棋棋谱数量应该不足把复杂定石变化都走完,加上AG又有自己神奇的判断,定石走错一手崩盘应该有机会:D
作者: bbbtri (cycling)   2016-03-14 19:30:00
DeepMind老板说他们没用职业棋谱 只用业余棋谱 lol
作者: birdy590 (Birdy)   2016-03-14 19:31:00
SL 网络的目的不是要多准 有个大概也就行了
作者: wnglon (冷面笑匠)   2016-03-14 19:32:00
这很合理啊 因为开发者有人只到业余高段算法要设计的好 也要设计者很懂围棋
作者: danibaba5566 (BABA56)   2016-03-14 19:49:00
那种无理手都是线上下棋会遇到的赖皮棋,真没看到是会逆转
作者: broodworld (john)   2016-03-14 20:10:00
雪崩应该没机会,看13盘就知道了,大攻杀会变单行道24盘稳稳走的比较有机会,因为次一手分布很广
楼主: ilw4e (可以吃吗?)   2016-03-14 20:13:00
我们觉得"单行道"电脑不见得觉得是,加上周遭点够多混淆它或许会有下错,也是猜测而已 因为定石几乎都人类穷举法最佳解,电脑既然不懂这个要靠模拟是有机会推不出来的
作者: broodworld (john)   2016-03-14 20:24:00
所以我觉得雪崩妖刀或开头大攻杀没机会,把谱上输的着手滤掉就好,反而是大模样爆破比较不好运算被爆的位置太随机了
作者: terminator3 (台灣一朗)   2016-03-14 20:43:00
作者: Roger0123 (Roger)   2016-03-14 22:10:00
蛮合理
作者: Vonix (台湾大赌场欢迎您)   2016-03-14 22:14:00
认同
作者: mothertime (我超爱傅红雪这变态)   2016-03-14 22:22:00
雪崩alphago好像会主动避开
作者: BRANFORD (请保佑我的父亲)   2016-03-15 02:35:00
樊麾表示
作者: Rhomboid (维尼)   2016-03-15 09:23:00
AG要“学”会安全机制,而不是“教”他安全机制

Links booklink

Contact Us: admin [ a t ] ucptt.com