[闲聊] AI训练到可以在Minecraft自己挖到钻石

楼主: wearytolove (夺真书生A.W.)   2025-04-05 04:28:39
这篇学术文章刚才发上了Nature
https://www.nature.com/articles/s41586-025-08744-2
这个算法完全不参考玩家的网络影片
而是把挖到钻石的步骤分成12步 (熔炉、挖石头、挖铁、砍木头....)
每完成一步就给电脑奖励 然后让算法强化学习
大概9天就让AI成功的可以从诞生到挖到第一颗钻石
这也代表AI的智慧更前进一步
由Google Deepmind研发
作者: hankiwi (_han_)   2025-04-05 04:30:00
人类离骇客任务的世界线又更进了一步
作者: error405 (流河=L)   2025-04-05 04:31:00
呵 接着训练盖巨大老二
作者: ak47123121 (小忍)   2025-04-05 04:32:00
ai玩麦块,vedal不是实现了吗,那代表更早之前应该就有了吧
作者: shadowdio   2025-04-05 04:35:00
什么时候能帮我打每日
作者: White77 (白色月月)   2025-04-05 04:47:00
Neuro之前没有自己挖到钻石过吗?
作者: b05605019 (只是好奇)   2025-04-05 04:49:00
我也希望有ai帕鲁帮我玩游戏" target="_blank" rel="noreferrer noopener nofollow">
" target="_blank" rel="noreferrer noopener nofollow">
作者: xrdx (rd)   2025-04-05 04:57:00
neuro会挖钻石了吗
作者: tyifgee (pttnoob)   2025-04-05 05:44:00
什么时候能帮我工作
作者: wild2012 (世界末日)   2025-04-05 06:43:00
这样也可以上期刊 vedal就不知道能上几次了
作者: kuninaka   2025-04-05 07:14:00
可以预料其实PTT很多机器人了例如楼下
作者: hongsiangfu   2025-04-05 07:23:00
主人您好,需要挖钻石吗?
作者: j147589 ((joyisbitch))   2025-04-05 07:42:00
不会中途被苦力怕还是其他怪杀掉吗
作者: dodomilk (豆豆奶)   2025-04-05 07:42:00
不太懂,为什么这样可以上期刊?以前的AI做不到吗?
作者: bobogei81123 (bobogei)   2025-04-05 07:52:00
没很仔细看完 但应该是从头到尾没有用任何人类的资料 类似 Alphago Zero 那样 全部是靠自己学的
作者: conqueror507 (冷箭)   2025-04-05 07:55:00
这很难吧 因为minecraft的选择很多
作者: aaaaooo (路过乡民)   2025-04-05 08:00:00
训练方法不同吧 以前的是教师学习直接喂正解下去训练这个
作者: y124421473 (ˊ_>ˋ)   2025-04-05 08:01:00
有包含渡过晚上的部分吗
作者: aaaaooo (路过乡民)   2025-04-05 08:02:00
是运用奖励函数的强化学习
作者: welkin0105 (实验与料理的旅行者)   2025-04-05 08:06:00
差别在以前有给AI人类资料学,现在可以自己摸索应该就是玩游戏看攻略和自己摸索最佳解的差别
作者: yurian   2025-04-05 08:23:00
听起来就像训练狗一样 用诱导的方式让他去做到你想要的而不是先跟他说哪些是对的? 比如现在比较面向一般大众的ai 其实没有自己搜寻正解的能力 问他新一点的事情都只会跟你说他的db太旧了 没训练过的事情他都不会 问游戏要怎样玩是完全不行
作者: b160160 (HG Life is Foo~~~)   2025-04-05 08:27:00
上期刊的比较旧,model based RL dreamer 的论文已经是四年前的论文了他有一个世界模型可以预测未来,也就是某种程度把麦块的游戏学起来
作者: Yan239 (彦)   2025-04-05 08:35:00
给ai奖励?怎么个奖励法== 又不是狗给零食就好
作者: uohZemllac (甘草精华雄没醉)   2025-04-05 08:49:00
看来我快要能够玩到多人游戏了
作者: befaithful (观察者)   2025-04-05 08:51:00
neuro: ??
作者: kaj1983   2025-04-05 08:51:00
说奖励你就想一下自己做哪些事比较优先啊机制设计逻辑不难理解
作者: jaspergood   2025-04-05 08:55:00
做对事情+分,做错事情-分,这样就算一种奖励机制,但你如果还要问什么这样ai就会听话喔之类的,那我也是没办法
作者: pony666 (不要踩到我)   2025-04-05 09:14:00
奖励可以有十秒钟的运作历程不会被人类记录
作者: guogu   2025-04-05 09:32:00
牛肉那个早期也是接人家写的AI 后面有没有换我就没关注了奖励很简单啊 就是对了加分 不然要给机油吗...看说明这个就是只给目标 不教它玩 让它自己摸出玩法
作者: PayKuo (柚子)   2025-04-05 09:36:00
奖励:可以看内存插入主机板的影片十秒
作者: salamender (banana king)   2025-04-05 09:57:00
看 ai 什么时候要学贱招阿w 原地阶梯式挖到 -53 开始鱼骨挖法
作者: guogu   2025-04-05 09:57:00
对了 要说惩罚也行 因为低分的通常会被消灭只留高分的继续让他演化
作者: WindSucker (抽风者)   2025-04-05 10:01:00
vedal屌打
作者: h0103661 (路人喵)   2025-04-05 10:37:00
牛肉一堆人写的脚本拿来跟自我学习ai比喔
作者: crazy6341556 (power_spike)   2025-04-05 11:26:00
给奖励就是让他的损失函式有正回馈呀 然后他依照这个函式预估自己之后的动作对于任务是优的还是劣的这种模式叫做RL 原本预想强ai可能要靠这种形式实现结果最常用到的是玩游戏哈哈
作者: linliu0624 (kawa)   2025-04-05 14:19:00
任务比较大的强化学习(?

Links booklink

Contact Us: admin [ a t ] ucptt.com