[闲聊] AI训练到可以在Minecraft自己挖到钻石 wearytolove PTT批踢踢实业坊

[闲聊] AI训练到可以在Minecraft自己挖到钻石

楼主: wearytolove (夺真书生A.W.) 2025-04-05 04:28:39

这篇学术文章刚才发上了Nature
https://www.nature.com/articles/s41586-025-08744-2
这个算法完全不参考玩家的网络影片
而是把挖到钻石的步骤分成12步 (熔炉、挖石头、挖铁、砍木头....)
每完成一步就给电脑奖励然后让算法强化学习
大概9天就让AI成功的可以从诞生到挖到第一颗钻石
这也代表AI的智慧更前进一步
由Google Deepmind研发

作者: hankiwi (_han_) 2025-04-05 04:30:00

人类离骇客任务的世界线又更进了一步

作者: error405 (流河=L) 2025-04-05 04:31:00

呵接着训练盖巨大老二

作者: ak47123121 (小忍) 2025-04-05 04:32:00

ai玩麦块，vedal不是实现了吗，那代表更早之前应该就有了吧

作者: shadowdio 2025-04-05 04:35:00

什么时候能帮我打每日

作者: White77 (白色月月) 2025-04-05 04:47:00

Neuro之前没有自己挖到钻石过吗？

作者: b05605019 (只是好奇) 2025-04-05 04:49:00

我也希望有ai帕鲁帮我玩游戏

" target="_blank" rel="noreferrer noopener nofollow">

作者: xrdx (rd) 2025-04-05 04:57:00

neuro会挖钻石了吗

作者: tyifgee (pttnoob) 2025-04-05 05:44:00

什么时候能帮我工作

作者: wild2012 (世界末日) 2025-04-05 06:43:00

这样也可以上期刊 vedal就不知道能上几次了

作者: kuninaka 2025-04-05 07:14:00

可以预料其实PTT很多机器人了例如楼下

作者: hongsiangfu (不可亵玩焉) 2025-04-05 07:23:00

主人您好，需要挖钻石吗？

作者: j147589 ((joyisbitch)) 2025-04-05 07:42:00

不会中途被苦力怕还是其他怪杀掉吗

作者: dodomilk (豆豆奶) 2025-04-05 07:42:00

不太懂，为什么这样可以上期刊？以前的AI做不到吗？

作者: bobogei81123 (bobogei) 2025-04-05 07:52:00

没很仔细看完但应该是从头到尾没有用任何人类的资料类似 Alphago Zero 那样全部是靠自己学的

作者: conqueror507 (冷箭) 2025-04-05 07:55:00

这很难吧因为minecraft的选择很多

作者: aaaaooo (路过乡民) 2025-04-05 08:00:00

训练方法不同吧以前的是教师学习直接喂正解下去训练这个

作者: y124421473 (ˊ_>ˋ) 2025-04-05 08:01:00

有包含渡过晚上的部分吗

作者: aaaaooo (路过乡民) 2025-04-05 08:02:00

是运用奖励函数的强化学习

作者: welkin0105 (实验与料理的旅行者) 2025-04-05 08:06:00

差别在以前有给AI人类资料学，现在可以自己摸索应该就是玩游戏看攻略和自己摸索最佳解的差别

作者: yurian 2025-04-05 08:23:00

听起来就像训练狗一样用诱导的方式让他去做到你想要的而不是先跟他说哪些是对的？比如现在比较面向一般大众的ai 其实没有自己搜寻正解的能力问他新一点的事情都只会跟你说他的db太旧了没训练过的事情他都不会问游戏要怎样玩是完全不行

作者: b160160 (HG Life is Foo~~~) 2025-04-05 08:27:00

上期刊的比较旧，model based RL dreamer 的论文已经是四年前的论文了他有一个世界模型可以预测未来，也就是某种程度把麦块的游戏学起来

作者: Yan239 (彦) 2025-04-05 08:35:00

给ai奖励？怎么个奖励法== 又不是狗给零食就好

作者: uohZemllac (甘草精华雄没醉) 2025-04-05 08:49:00

看来我快要能够玩到多人游戏了

作者: befaithful (观察者) 2025-04-05 08:51:00

neuro: ??

作者: kaj1983 2025-04-05 08:51:00

说奖励你就想一下自己做哪些事比较优先啊机制设计逻辑不难理解

作者: jaspergood (爵士裴古德) 2025-04-05 08:55:00

做对事情+分，做错事情-分，这样就算一种奖励机制，但你如果还要问什么这样ai就会听话喔之类的，那我也是没办法

作者: pony666 (不要踩到我) 2025-04-05 09:14:00

奖励可以有十秒钟的运作历程不会被人类记录

作者: guogu 2025-04-05 09:32:00

牛肉那个早期也是接人家写的AI 后面有没有换我就没关注了奖励很简单啊就是对了加分不然要给机油吗...看说明这个就是只给目标不教它玩让它自己摸出玩法

作者: PayKuo (柚子) 2025-04-05 09:36:00

奖励：可以看内存插入主机板的影片十秒

作者: salamender (banana king) 2025-04-05 09:57:00

看 ai 什么时候要学贱招阿w 原地阶梯式挖到 -53 开始鱼骨挖法

作者: guogu 2025-04-05 09:57:00

对了要说惩罚也行因为低分的通常会被消灭只留高分的继续让他演化

作者: WindSucker (抽风者) 2025-04-05 10:01:00

vedal屌打

作者: h0103661 (路人喵) 2025-04-05 10:37:00

牛肉一堆人写的脚本拿来跟自我学习ai比喔

作者: crazy6341556 (power_spike) 2025-04-05 11:26:00

给奖励就是让他的损失函式有正回馈呀然后他依照这个函式预估自己之后的动作对于任务是优的还是劣的这种模式叫做RL 原本预想强ai可能要靠这种形式实现结果最常用到的是玩游戏哈哈

作者: linliu0624 (kawa) 2025-04-05 14:19:00

任务比较大的强化学习（？

继续阅读

Re: [鸣潮] 中韩官方因尊敬的中国玩家而公开道歉anpinjou [闲聊] 大家对Bethesda是不是太苛刻了ak47123121 [萌夯] 操虫棍-近战对白炽龙优势大ruiun Re: [问题] 白鹰格里菲斯为什么还要虐菜?ultmisia Re: [闲聊] 为什么只有小黄游没有大黄游啊？zxcmoney [闲聊] 荒野滚桶有没有教学 sky093851248 [荒野] 白炽龙……只是想要保护大家而已Mayfly [闲聊] 真假啦这是AI图喔XLcock [闲聊] 陶德之后会怎么宣传上古卷轴6？LouisLEE Re: [母鸡] 大家能共情喵梦吗aos005432