[闲聊] 5万小时训练AI玩宝可梦红版 走不出月见山

楼主: lolic (lolic)   2023-10-25 21:25:02
https://game.udn.com/game/story/122089/7526108
在经历长达 5 万小时的训练与学习后,
一位工程师成功让一套 AI 模组学会如何游玩《宝可梦:红版》,
创造出能够自行探索游戏,组成宝可梦队伍...。
...
由于机器算法在本质上并不在乎“全破”一款游戏,
因此 Whidden 为 AI 算法设计一套在完成特定目标时能够获得奖励的系统。
为了鼓励 AI 在《宝可梦:红版》中进行探索,
只要能够在地图上看到一些之前没有看过的东西,就能够获得奖励点数。
最终 AI 顺利从真心镇出发,穿过常盘森林,来到深灰市挑战第一道馆。
在那之前,AI 还需要更加完善的奖惩系统。
在学会看到新事物能够获得奖励后,虽然 AI 会开始不断向前迈进,
但完全不在乎收服宝可梦或进行对战,而是在遇到野生宝可梦时立刻逃走。
因此,Whidden 为奖励系统加入更多内容,
依照 AI 宝可梦队伍的等级总和给予奖励,让它开始有动力去练等和捕捉宝可梦。
只不过在某一次的演算中,AI 走进宝可梦中心时意外开启 PC,并在其中存放几只宝可梦。
由于 AI 获得的奖励点数是依照队伍等级总和而定,这个行为导致 AI 获得的分数瞬间骤降。
为了避免重蹈覆辙,AI 在那之后的所有演算中都选择避开宝可梦中心,
完全不敢进去为宝可梦补血,这让 Whidden 不得不再次插手调整。
这套 AI 算法最基本的运作方式,其实就是随机在《宝可梦:红版》中走动与游戏进行互动,
直到发现能够以最有效率的方式获得最多奖励的路径,并将经验保留到下一次的演算中。
在挑战的过程中,AI 都只会使用最基本的攻击招式撞击来进行对战,
直到该招式的 PP 用完后才会使用其他选择。
某次演算中,AI 终于发现杰泥龟的泡沫攻击能够对小刚的宝可梦造成大量的伤害,
最终顺利击败这位道馆馆主。
即使 AI 在对于游戏的理解与逻辑上依然比不上人类,但这场实验发掘了一些更加深层的细节。
根据 Whidden 的发现,
AI 在经历一段时间的演算后就开始固定以看似不寻常的路径从真心镇出发,直到遇到第一只野生宝可梦。
然而,这一系列的操作其实能够保证 AI 能够一球抓到遇见第一只宝可梦。
也就是说,AI 发现一个 Speedrun 玩家可能要花上好几年的时间研究才有机会注意到的系统漏洞。
这套 AI 算法在成功突破第一道馆时基本上已经达成了 Whidden 最初设定的目标,
但 Whidden 决定要让 AI 的《宝可梦:红版》冒险继续下去,
看看目前的奖励机制到底能让它走多远。
可惜的是,第一和第二道馆之间的月见山对于看到新事物就能加分的 AI 来说
实在是太过于容易分心,
因此一直到 Whidden 决定让实验告一段落前都无法顺利抵达华蓝市。
除此之外,AI 似乎非常喜欢从鲤鱼王大叔手中购买鲤鱼王,
因为这样的行为能够让 AI 宝可梦队伍的等级总和立刻多出五等,
因此到实验结束前,AI 在其中 1 万次的演算中都跑去买了鲤鱼王。
另外值得注意的是,AI 有一次将抓来的小拉达命名为了“AI”,让人细思极恐。
https://youtu.be/DcYLT37ImBY?si=Yc6mnic1FdBh3zw9
作者: Satoman (沙陀曼)   2023-10-25 21:26:00
耶稣鸟屌打
作者: xsc (颓废的败家子)   2023-10-25 21:27:00
发现一发必中BUG有点恐怖
作者: ianpttptt (你小海岸)   2023-10-25 21:27:00
有台湾Yt 疑似未授权的搬运
作者: ryoma1 (热血小豪)   2023-10-25 21:28:00
一群猴子>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>AI
作者: BattleFries   2023-10-25 21:28:00
好酷
作者: willytp97121 (rainwalker)   2023-10-25 21:28:00
看来对AI来说宝可梦暂时还太难懂了一点
作者: yys310 (有水当思无水之苦)   2023-10-25 21:28:00
TPP>>>>>>>AI
作者: kinuhata (kinuhata)   2023-10-25 21:28:00
鲤鱼王大叔或成最大赢家
作者: shampoopoo (毛宝洗发精)   2023-10-25 21:30:00
这意思是还不如金鱼吗
作者: shadowblade (影刃)   2023-10-25 21:30:00
金鱼>>>AI
作者: shlee (冷)   2023-10-25 21:30:00
满酷的
作者: andy0481 (想吃比叡的咖哩)   2023-10-25 21:30:00
结论 多了奖励导向的硬A怪而已
作者: MrSherlock (夏乐克)   2023-10-25 21:30:00
笑死
作者: killerj466v2 (肥肥)   2023-10-25 21:31:00
AI:我要皮皮!我要月见石1
作者: ikachann (喵喵)   2023-10-25 21:32:00
宝可梦其实很复杂耶 别看属性相克那样 其实里面学问超多
作者: NoLimination (啊啊啊啊)   2023-10-25 21:34:00
奖励应该是馆主 四天王 冠军吧一般小孩理解的第一游戏目标
作者: lolicon (三次元滚开啦)   2023-10-25 21:34:00
AI取AI的名字XD
作者: spfy (spfy)   2023-10-25 21:35:00
没问题啦 12万支猴子都能TPP破关了 相信AI
作者: yellowd54321 (YellowD)   2023-10-25 21:35:00
人类:AI会毁灭世界!!金鱼:Hold my beer.
作者: as3366700 (Evan)   2023-10-25 21:35:00
要算也是先算全破SR的玩法吧 宝可梦应该没啥AI才能做到的操作
作者: ryoma1 (热血小豪)   2023-10-25 21:35:00
等AI可以把小拉达变成梦幻再叫我
作者: umapyoisuki   2023-10-25 21:37:00
我小时候也都会去买鲤鱼王
作者: rabbithouse (智乃的欧尼酱)   2023-10-25 21:37:00
用无限船票砍树!
作者: king9122 (DD)   2023-10-25 21:39:00
鲤鱼王真爱
作者: geminitea (维亚)   2023-10-25 21:42:00
好可爱又好恐怖XDDD
作者: orcazodiac (沙琴)   2023-10-25 21:43:00
以破关为目标可能就变成各种卡BUG了
作者: bestteam (wombat是胖胖熊)   2023-10-25 21:45:00
小时候这里也走超久的
作者: furret (大尾立)   2023-10-25 21:45:00
金鱼脑>AI
作者: jpnldvh (儿子长得像隔壁老王)   2023-10-25 21:47:00
给够多时间猴子也能写出莎士比亚
作者: q0000hcc (仙草侠)   2023-10-25 21:49:00
图奇聊天室>AI
作者: s1129sss (恩兔)   2023-10-25 21:51:00
AI: 呜呜呜,宝可梦中心把我的宝可梦吃掉了,以后不来了
作者: lucky0417 (L.W)   2023-10-25 21:51:00
AI:我在享受游戏,为什么要逼我走出镇子 AI:靠背 打怪会扣血 白痴才打
作者: theone5566 (5566救世主)   2023-10-25 21:52:00
被存电脑吓到不敢进去补血也太可爱
作者: nineflower (九日落-泪花开)   2023-10-25 21:52:00
过个10年是不是要说AI玩的比你好
作者: shigurew (shigure)   2023-10-25 21:53:00
AI最大问题就是奖励机制写不好,只定一个最终目标没啥用
作者: caryamdtom (囧人不囧)   2023-10-25 21:54:00
能够发现以前必抓bug还蛮厉害的
作者: scott032 (yoyoyo)   2023-10-25 21:56:00
AI居然比猴子还弱
作者: RaiGend0519 (Named RaiGend)   2023-10-25 21:56:00
其实就很像三岁小孩玩的感觉
作者: ikaros35 (堕落的ikaros)   2023-10-25 21:57:00
这个就你奖励式没写好 奖励式矛盾下的建模问题要造出像人类一样的AI 没那么简单
作者: ken841520 (WEIWEI)   2023-10-25 21:58:00
能抓到乱数种子满厉害的耶
作者: jeff666   2023-10-25 22:02:00
AI没有写入打怪自己会变强的逻辑吧
作者: qwork   2023-10-25 22:05:00
这个就奖励模式没写好而已 不会有人觉得“AI”只有一种吧有人智商比猴子低 不代表人类智商比猴子低
作者: e5a1t20 (吃饭)   2023-10-25 22:09:00
用地图探索和队伍等级当奖励条件训练 就不够聪明 直接暴力写一堆判断条件进去一定能破关不然至少要加前几步当条件 否则走迷宫会一直原地绕圈
作者: goodday5566 (好天五六)   2023-10-25 22:12:00
比图奇猴子还不如
作者: scott032 (yoyoyo)   2023-10-25 22:13:00
阿这个AI就比猴子弱阿五万个小时连小学生都不知道破关几次了
作者: sanro (Sanro)   2023-10-25 22:15:00
这什么鲤鱼王铁粉www
作者: sammy0216 (chin)   2023-10-25 22:21:00
太猛了
作者: fragile8G (九个海)   2023-10-25 22:24:00
看来还是当年一群人随机的比较好玩
作者: krousxchen (城府很深)   2023-10-25 22:27:00
现在还只是人工智障而已,还在靠人为给权重,没办法有自己的判断能力
作者: a12073311 (没有)   2023-10-25 22:31:00
金鱼的胜利
作者: oppaidragon (欧派是和平的象征)   2023-10-25 22:34:00
猴子都比较强
作者: keyboking (keyboking)   2023-10-25 22:48:00
厉害了,我连常盘森林都走不出去。
作者: scotttomlee (ほしのゆめみは俺の嫁!)   2023-10-25 23:08:00
感觉这AI只是单纯接受指令(奖励)去做事的社畜(X)而已
作者: LittleJade (TKDS)   2023-10-25 23:09:00
不敢进宝可梦中心还满可爱的XD
作者: scotttomlee (ほしのゆめみは俺の嫁!)   2023-10-25 23:11:00
不像是在玩PM游戏 而是在玩指令给的奖励要素就很浓的作业感
作者: Kenalex (火焰召唤师)   2023-10-25 23:28:00
所以这个AI能否通关 纯粹看作者能否设计出完美的奖励机制然而作者很明显做不到 才会导致AI为了奖励去做不该做的事
作者: as1100   2023-10-25 23:43:00
我也喜欢和大叔买鲤鱼王 然后在月见山练到进化
作者: GooglePixel (谷哥批索)   2023-10-25 23:56:00
这AI说穿了就是一套算法 是以影像辨识为基础 发现新画面就会奖励与纪录起来 人脑是好几套不同的算法 不懂不用瞎喷耶
作者: gggaaammm (李剛)   2023-10-26 00:12:00
想当初小时候卡在喝酒的老人……AI比较强
作者: bitcch (必可取)   2023-10-26 00:14:00
手写奖励函数有太多可能性要判断 复杂的场景不可能这样作结合时事把手刻规则改用LLM判断 虽然慢但说不定会好很多
作者: Aquarius126 (Aquarius126)   2023-10-26 00:20:00
AI社畜,5万小时=6年
作者: Derozan12 (迪罗森)   2023-10-26 00:35:00
好酷的试验
作者: v21638245 (等雨婷)   2023-10-26 00:53:00
金鱼屌打
作者: pikaMH (矿工猎人)   2023-10-26 01:20:00
鲤鱼王笑死
作者: StSoSnE   2023-10-26 01:51:00
这影片有趣的点在观察奖励机制造成ai训练的倾向性 还有尝试修改的思路
作者: willie6501 ((OωO)~)   2023-10-26 02:10:00
作者想的不够充分或故意想的不充分看会导致什么策略行为
作者: timaaa (tim)   2023-10-26 02:23:00
有趣
作者: baddad (dadfly)   2023-10-26 08:14:00
我也会买耶xD里面有提到,他找出不遇敌路线,这还蛮厉害的耶
作者: lifehunter (垄天)   2023-10-26 08:59:00
玩游戏主要是乐趣啊~

Links booklink

Contact Us: admin [ a t ] ucptt.com