标题:Google DeepMind推出Gemini Robotics 1.5,让机器人能够思考后再行动
来源:iknow科技产业资讯室
原文网址:https://pse.is/86wr55
原文:
基本上,能够创建文字、影像、音讯甚至视讯的生成式AI系统正变得日益普及。AI模型能
够输出这些资料类型,它们也可以用来输出机器人的动作。这正是Google DeepMind之
Gemini Robotics的基础。
如今该计画宣布了两个新模型,它们可以协同工作,创造出首批在行动前“思考”的机器
人。
Google DeepMind所推出了两款全新AI模型:Gemini Robotics 1.5 和 Gemini
Robotics-ER 1.5,旨在让机器人能够自行规划、理解和执行复杂任务。这两款模型都将
多模态感知、语言处理、运动控制与内部决策系统结合。
DeepMind 目前的机器人技术依赖两种模型:一种是“思考”模型,另一种是“行动”。
Gemini Robotics 1.5是视觉-语言-动作(VLA)模型,这意味着它使用视觉和文字资料来
产生机器人动作。另一个模型中的“ER”代表具身推理 (embodied reasoning)。这是一
个视觉-语言模型 (VLM),它接受视觉和文字输入来产生完成复杂任务所需的步骤。
第一个模型Gemini Robotics 1.5将这些规划转化为实际行动。与先前的VLA不同,此模型
先推理后行动:它会建立内部逻辑链,规划中间步骤,分解复杂任务,并解释其决策。例
如,在将衣物分类时,模型会识别目标(例如“将浅色衣物放入白色垃圾桶”),然后规
划抓取动作并执行。
至于Gemini Robotics-ER 1.5 是机器人的高阶“大脑”。它负责任务规划,使用谷歌搜
寻等数位工具,以自然语言进行交流,并监控进度和成功率。根据Google DeepMind 称,
该模型在 15 项具身推理基准测试上取得了最佳结果。
这两种模型都可以将其能力推广到不同类型的机器人。谷歌表示,ALOHA 2 机器人学习到
的运动模式也可以在Apptronik 的 Apollo 或双臂 Franka 机器人等平台上运行,无需额
外微调。
这些模型包含内建安全检查功能。在执行操作之前,Gemini Robotics 1.5 会检查移动是
否安全,并在需要时触发防撞等功能。
这两种型号都基于更广泛的 Gemini 多模态系列,并针对机器人技术进行了专门调整。
Gemini Robotics-ER 1.5 现已透过 Google AI Studio 中的 Gemini API 提供,目前仅
限部分合作伙伴使用。
总之,有别于传统依赖单一资料和特定平台的训练方式,Gemini Robotics 1.5系列模型
使机器人能够跨平台迁移技能,并在复杂环境中展现出类人适应性,拓展了机器人模型的
通用性。这也成为众多厂商建构机器人模型的目标之一。
过去机器人往往只能依循固定程式,在既定框架下完成单调任务,如今借由具身推理与跨
平台学习,它们不仅能理解环境、规划多步骤任务,甚至能把一种硬件的经验快速转移到
另一种机器人身上,这意味着未来的机器学习将不再是耗时的重复过程,而是一种“即学
即用”的演化模式。心得: