[闲聊] Adversarial Policies Beat Professional-Level Go AIs fxfxxxfxx PTT批踢踢实业坊

[闲聊] Adversarial Policies Beat Professional-Level Go AIs

楼主: fxfxxxfxx (爱丽丝) 2022-11-03 17:17:16

前天发在 arXiv 上的文章
https://arxiv.org/abs/2211.00241
看标题很吓人:
他们训练出能被人类轻易打败
但却能打败 KataGo 的围棋 AI
简单的说，就是要找到隐藏在 KataGo 模型里的缺陷
而训练出来 AI 单纯就是为了攻破 KataGo 而生
本身几乎不具备围棋知识，所以会被人类轻易打败
以前看过一些欺骗 AI 判断图片的例子
做在围棋 AI 上倒是比较新奇
但实际看过这篇论文之后有点失望
下面是他们赢过 KataGo 的例子
https://i.imgur.com/1ZbR4VI.png
他们是蜷缩在角落的那方
阿看这个图第一个反应是这哪有赢
再看他们的说明之后才知道
用的是一个叫 Tromp-Taylor 的规则
这和一般的规则很像，只是你必须把对手明显死掉的棋子吃掉
否则就不算死棋，所以图里的 KataGo 是输的一方
因为 KataGo 并不是用这个规则训练的
用的是不需要吃死棋的规则，在终局时会认为不需要再下而 pass
在搜寻深度不够的情况下，会输掉是蛮显然的结果
看一下论文宣称做到的事
1. KataGo 不搜寻的情况下有 99% 胜率
2. KataGo 搜寻深度足以超越所有人类时仍有过半胜率
第一个马上会出现的疑问是为什么要使用 Tromp-Taylor 规则
虽然 KataGo 在官网上说他们支援 Tromp-Taylor 规则
但为什么非得用一个和 KataGo 训练时不一样的规则呢
我觉得答案很明显，就是不这样就做不出来
甚至要更怀疑论一点的话
搞不好是先人工发现 KataGo 处理不了这种情况才开始研究的
还有就是，为什么只让 KataGo 的搜寻程度恰好能达到超人类水准，而不再更多一点呢
应该也是因为如果再放宽一点就赢不了了
甚至我想说，在 Tromp-Taylor 下应该就不是超人类水准了
毕竟我觉得这人工也很可能发现的，只是这个规则没人在用
你可能会说这还是有它的价值在，
像是他帮我们自己找出了漏洞 (毕竟是官网宣称支援的规则)
只是就有点..ㄜ..失望
而且处处充满著非常特设、感觉像是要改到赢为止的设定
不太行

作者: gnech73579 (rocky) 2022-11-03 17:18:00

嗯嗯，懂了

继续阅读

[方舟] 小确幸kevinlee2001 [闲聊] 新竹有什么实在的玩具店模型店的DreaMaker167 Re: [瓦特] 造成我逐渐不看V的理由sustainer123 Re: [瓦特] 造成我逐渐不看V的理由a1234555 [瓦特] 168koy784512 自SRushia Re: [瓦特] 造成我逐渐不看V的理由walter741225 [瓦特] 168Nakirigumi 性行为训练可领300万！15岁少女滚床卖力学　竟medama [瓦特] 168ephraim13825