[讨论] 为何机器人AI不透过强化式学习训练?

楼主: seal46825 (Vanish)   2024-10-16 23:54:43
刚刚看了YouTube 介绍特斯拉Optimus的影片
里面提到特斯拉里面有50位人员
专门用VR装置去操控Optimus
去执行某修动作 例如分类物品
然后就可以透过这些动作训练模型
但是跟特斯拉成千上万个车子数据比起来
这只能算是小巫见大巫
那我就好奇 为什么机器人不透过强化式学习的方式去训练
如同训练AI玩游戏一样
可以给个很明确的计分方式
然后让AI自己去玩游戏
只要规则够明确 AI自己就可以训练练到很强
同样道理 我让一颗球放在一个发射平台
会自动弹出 然后球上有芯片
只要机器人可以在越短的时间去把球捡回来
他就可以得到高分
如此一来他就可以去学习如何快速辨识球的位置
如何规划路线 如何最佳应用他的身体
然后快速把球捡起来 放回发射平台
这样作法的好处是可以做出成千上万台机器人
让他们自己去训练 一年365天24小不停歇
这样就能产生大量数据 快速精进机器人AI模型
同样的模式还可以特用的很多事情上
所以为何现在的机器人公司不这样做
要用真的人去训练搜集数据呢?
还是其实有在做了?
作者: peter3354152 (阿玮)   2024-10-17 00:25:00
上网搜寻robotic deep reinforcement learning 应该会有一堆paper
作者: DarkIllusion (′・ω・‵)   2024-10-17 01:54:00
用RL做机器人策略有奖励稀疏、sim2real gap问题,有人类展示当训练资料是最好的
作者: gogogogo3333 (gogogogo33333)   2024-10-17 12:25:00
llm/vlm is based on RLHF for long time.

Links booklink

Contact Us: admin [ a t ] ucptt.com