[闲聊] Adversarial Policies Beat Professional-Level Go AIs

楼主: fxfxxxfxx (爱丽丝)   2022-11-03 17:17:16
前天发在 arXiv 上的文章
https://arxiv.org/abs/2211.00241
看标题很吓人:
他们训练出能被人类轻易打败
但却能打败 KataGo 的围棋 AI
简单的说,就是要找到隐藏在 KataGo 模型里的缺陷
而训练出来 AI 单纯就是为了攻破 KataGo 而生
本身几乎不具备围棋知识,所以会被人类轻易打败
以前看过一些欺骗 AI 判断图片的例子
做在围棋 AI 上倒是比较新奇
但实际看过这篇论文之后有点失望
下面是他们赢过 KataGo 的例子
https://i.imgur.com/1ZbR4VI.png
他们是蜷缩在角落的那方
阿看这个图第一个反应是 这哪有赢
再看他们的说明之后才知道
用的是一个叫 Tromp-Taylor 的规则
这和一般的规则很像,只是你必须把对手明显死掉的棋子吃掉
否则就不算死棋,所以图里的 KataGo 是输的一方
因为 KataGo 并不是用这个规则训练的
用的是不需要吃死棋的规则,在终局时会认为不需要再下而 pass
在搜寻深度不够的情况下,会输掉是蛮显然的结果
看一下论文宣称做到的事
1. KataGo 不搜寻的情况下有 99% 胜率
2. KataGo 搜寻深度足以超越所有人类时仍有过半胜率
第一个马上会出现的疑问是为什么要使用 Tromp-Taylor 规则
虽然 KataGo 在官网上说他们支援 Tromp-Taylor 规则
但为什么非得用一个和 KataGo 训练时不一样的规则呢
我觉得答案很明显,就是不这样就做不出来
甚至要更怀疑论一点的话
搞不好是先人工发现 KataGo 处理不了这种情况才开始研究的
还有就是,为什么只让 KataGo 的搜寻程度恰好能达到超人类水准,而不再更多一点呢
应该也是因为如果再放宽一点就赢不了了
甚至我想说,在 Tromp-Taylor 下应该就不是超人类水准了
毕竟我觉得这人工也很可能发现的,只是这个规则没人在用
你可能会说这还是有它的价值在,
像是他帮我们自己找出了漏洞 (毕竟是官网宣称支援的规则)
只是就有点..ㄜ..失望
而且处处充满著非常特设、感觉像是要改到赢为止的设定
不太行
作者: gnech73579 (rocky)   2022-11-03 17:18:00
嗯嗯,懂了

Links booklink

Contact Us: admin [ a t ] ucptt.com