[新闻] Google DeepMind推出Gemini Robotics 1.5 stpiknow PTT批踢踢实业坊

[新闻] Google DeepMind推出Gemini Robotics 1.5

楼主: stpiknow (H) 2025-09-30 13:55:50

标题:Google DeepMind推出Gemini Robotics 1.5，让机器人能够思考后再行动
来源:iknow科技产业资讯室
原文网址:https://pse.is/86wr55
原文:
基本上，能够创建文字、影像、音讯甚至视讯的生成式AI系统正变得日益普及。AI模型能
够输出这些资料类型，它们也可以用来输出机器人的动作。这正是Google DeepMind之
Gemini Robotics的基础。
如今该计画宣布了两个新模型，它们可以协同工作，创造出首批在行动前“思考”的机器
人。
Google DeepMind所推出了两款全新AI模型：Gemini Robotics 1.5 和 Gemini
Robotics-ER 1.5，旨在让机器人能够自行规划、理解和执行复杂任务。这两款模型都将
多模态感知、语言处理、运动控制与内部决策系统结合。
DeepMind 目前的机器人技术依赖两种模型：一种是“思考”模型，另一种是“行动”。
Gemini Robotics 1.5是视觉-语言-动作（VLA）模型，这意味着它使用视觉和文字资料来
产生机器人动作。另一个模型中的“ER”代表具身推理 (embodied reasoning)。这是一
个视觉-语言模型 (VLM)，它接受视觉和文字输入来产生完成复杂任务所需的步骤。
第一个模型Gemini Robotics 1.5将这些规划转化为实际行动。与先前的VLA不同，此模型
先推理后行动：它会建立内部逻辑链，规划中间步骤，分解复杂任务，并解释其决策。例
如，在将衣物分类时，模型会识别目标（例如“将浅色衣物放入白色垃圾桶”），然后规
划抓取动作并执行。
至于Gemini Robotics-ER 1.5 是机器人的高阶“大脑”。它负责任务规划，使用谷歌搜
寻等数位工具，以自然语言进行交流，并监控进度和成功率。根据Google DeepMind 称，
该模型在 15 项具身推理基准测试上取得了最佳结果。
这两种模型都可以将其能力推广到不同类型的机器人。谷歌表示，ALOHA 2 机器人学习到
的运动模式也可以在Apptronik 的 Apollo 或双臂 Franka 机器人等平台上运行，无需额
外微调。
这些模型包含内建安全检查功能。在执行操作之前，Gemini Robotics 1.5 会检查移动是
否安全，并在需要时触发防撞等功能。
这两种型号都基于更广泛的 Gemini 多模态系列，并针对机器人技术进行了专门调整。
Gemini Robotics-ER 1.5 现已透过 Google AI Studio 中的 Gemini API 提供，目前仅
限部分合作伙伴使用。
总之，有别于传统依赖单一资料和特定平台的训练方式，Gemini Robotics 1.5系列模型
使机器人能够跨平台迁移技能，并在复杂环境中展现出类人适应性，拓展了机器人模型的
通用性。这也成为众多厂商建构机器人模型的目标之一。
过去机器人往往只能依循固定程式，在既定框架下完成单调任务，如今借由具身推理与跨
平台学习，它们不仅能理解环境、规划多步骤任务，甚至能把一种硬件的经验快速转移到
另一种机器人身上，这意味着未来的机器学习将不再是耗时的重复过程，而是一种“即学
即用”的演化模式。心得:

继续阅读

[新闻] 一早被钱砸醒！鸿海员工分红大方给百万jeff0025 [新闻] 美抛台美芯片五五分　经贸办：审慎以对cjol [新闻] 三星家族财阀被曝“秘密选妃”特爱黑丝analysis5566 [新闻] 美国资料中心面临挑战！美银美林：电价飙analysis5566 [请益] 明天海马是不是开奖了呀？Fujima [新闻] 不是医科、电机！“1科系”月薪破6万元analysis5566 [新闻] 美股7巨头光芒不再？分析师点名台积电analysis5566 [新闻] 川普拟大幅转移芯片生产至本土！美商务qazxc1156892 [新闻] AI需求带动台积电今年用电占比挑战10%hvariables Re: [请益] offer请益a22298811