先前板上也有板友分享相关论文
最简单说 原理是训练另外一组AI模型对抗式的去找出顶尖模型(Katago/Leela)的漏洞
现在的进度则是 棋力达到业余顶尖的棋手有能力学习该模型的策略
反过来击败先前已经远远超过人类等级的模型 并且有稳定表现(KGS 14胜1负)
现在这个网站有棋谱可以线上阅览
https://goattack.far.ai/human-evaluation
摘要
1. 这个钻漏洞模型的对局下不赢寻常棋手(网页第一谱)
2. 钻漏洞策略精神之一:让AI包围自己,自己委屈两眼活
3. 钻漏洞策略精神之二:从外面偷偷包抄AI的包围网,会发现AI的反应有点异常
成功的话就能反包抄AI原先的超厚势
有趣的点
1. Leela 那一局,对抗者的114手在黑阵中挣扎,Leela 115 竟然是滑标级脱先?
感觉上是真的是一种漏洞...
2. Katago 那一局,对抗者86跳、88飞已经以客犯主。
AI 黑棋 97、101 连续照顾自己其他的疆界,结果上方对抗者的孤棋就这样异军突出,
完成了反包围。
这一谱布局时,对抗者的白棋在左边与下边的连续二线潜水很好笑,
另一篇报导中提到,这个反包围策略需要“在其他角落行棋使AI分心”,
所以应是为此的准备。
报导:https://www.ft.com/content/175e5314-a7f7-4741-a786-273219f433a1
3. 大家应该想问,为什么不对绝艺这样操作?我也很好奇。
4. 现在球又被丢回来AI研究者这边了,深度强化学习为什么会出现这样的盲点?
从围棋领域内来讲,看起来是对于自己的厚势产生了超过常理的自信?
虽然从棋的内容来看未必符合大家期望的弑神的快感,
但这也是刚起步的机器智慧与挣扎的人类智慧的碰撞吧,也是一局很大的棋。