[闲聊] 用两亿个参数训练AI打Pokemon对战

楼主: wearytolove (夺真书生A.W.)   2025-04-22 07:58:10
https://arxiv.org/abs/2504.04395
UT Austin资工系一群研究人员
使用线上对战游戏Competitive Pokémon Singles (CPS)
过去15年的真人6v6 pokemon对战历史资料共95万场比赛
以强化学习的方式学习游戏技巧
(何时攻击、用啥攻击、换怪、换啥怪、场地天候因素、考量对手攻击集气等,最
多到两亿的参数),
最后把训练的模型匿名偷偷拿去真人对战爬积分,
成功爬到前10%的ranking

这代表AI也开始进攻Pokemon对战游戏了
不过才爬到前10%,代表还有10%的人可以打赢AI
不过这游戏在台湾好像现在讨论不多就是了
作者: Wardyal (Wardyal)   2025-04-22 08:03:00
2亿以模型来说算很多吗
作者: aaaaooo (路过乡民)   2025-04-22 08:04:00
GPT-1 1.1亿 GPT-2 15亿 GPT-4 5000亿+ 2亿是迷你模型
作者: qss05 (minami)   2025-04-22 08:13:00
可是每代的战术多少有差,太久的也不能参考吧,这要能打到1%应该很难,虽然好像部分版本的情况比较单一,不用判断那么多
作者: none049 (没有人)   2025-04-22 08:13:00
AI会摸去化石吗?
作者: aaaaooo (路过乡民)   2025-04-22 08:15:00
他用强化学习的只要换代时花点时间再训练就好 只要设备够好很快又能爬上去
作者: ClawRage (猛爪Claw)   2025-04-22 08:22:00
反正大多数时间猜守住跟丢硬币并没有区别打大师绩分完全OK只要没涉及养怪战术都没啥研究难度
作者: BusterPosey (Barca!Giants!Rafa!)   2025-04-22 08:33:00
所以有得出现在规则哪个神最强吗?
作者: chocoball (巧克力球)   2025-04-22 08:48:00
10%也满强了 至少多数玩家赢不了ai
作者: teddy (这是个好问题)   2025-04-22 08:50:00
2亿不大 有显卡就能跑
作者: CYHyen (CYHyen)   2025-04-22 08:59:00
10%蛮烂的吧 在认真玩家眼里可能都有很多明显的错误
作者: louie0909 (法老ATM)   2025-04-22 09:04:00
2亿是0.2B?那超迷你模型欸 搞不好手机都能跑
作者: whitekyubi (狐狸)   2025-04-22 09:13:00
有包含编队跟配招吗?
作者: OldYuanshen (聊斋异说)   2025-04-22 09:14:00
前10%不就是pr90的意思吗 还是天梯只有前10%才竞争底下很多只是玩自己喜欢的队伍
作者: kramasdia (New~~)   2025-04-22 09:23:00
围棋ai都能打世界冠军了 宝可梦ai只能10%相比之下难免让人觉得不足
作者: xga00mex (七祈绮契)   2025-04-22 09:26:00
感觉应该要进3%左右才算强吧 10%感觉就一般热衷玩家
作者: weiman0702 (weiman)   2025-04-22 09:27:00
这还会牵涉对战环境某种队伍太强势就会有很多人开始针对如果胜率保持在70%甚至80%以上就非常强了
作者: xga00mex (七祈绮契)   2025-04-22 09:28:00
不过也要看打的场次跟胜率就是了
作者: lastphil (おやすミルキィ)   2025-04-22 09:31:00
LLM 2B模型刚好能给手机跑
作者: linzero (【林】)   2025-04-22 09:37:00
感觉跟围棋不一样,组成有可能遇到被针对而输面较大吧
作者: realestate (不动产)   2025-04-22 10:02:00
好几篇论文都指出的 对战类游戏使用 Enforce Learning训练的话 在初期的学习曲线会飙很快 但很快在接近人类顶尖水平时就会停滞不前 最终无论训练参数多大 都无法突破人类极限
作者: BSpowerx (B.S)   2025-04-22 10:03:00
看天梯排名没意义吧,这东西终究是胜率别太惨就会越打越高,又不是说你胜率90%90%玩家根本不会一天24小时泡在天梯上面拼排名
作者: qss05 (minami)   2025-04-22 11:00:00
可是围棋规则是不变的不是?虽然战术与时俱进,但是基本逻辑都可以通用,但有meta或是系统差异的游戏,部分参数应该是没用的?实际训练量应该少很多?
作者: alpho (Whyyyyy)   2025-04-22 11:12:00
围棋规则比较固定 宝可梦从组队就很吃环境的影响
作者: mouscat (Das ist ein buch)   2025-04-22 11:38:00
围棋 西洋棋这种明面上没有未知资讯的比较适合AI演算?西洋棋的死鱼也没有活人打得赢吧

Links booklink

Contact Us: admin [ a t ] ucptt.com