腾讯科技
发布于

谷歌DeepMind发布Gemini Robotics 1.5:AI智能体迈入物理世界

当地时间9月25日,谷歌DeepMind宣布推出Gemini Robotics 1.5系列模型,标志着人工智能领域正朝着构建具备智能体能力的通用机器人迈出巨大一步。这一系列模型旨在赋予机器人在物理世界中感知、规划、思考、使用工具和执行复杂多步骤任务的进阶能力。

 

谷歌DeepMind发布了两款模型:Gemini Robotics 1.5和Gemini Robotics-ER 1.5。它们构成了一个高效协作的智能体框架,让机器人能够处理需要“脑力与体力”双重挑战的复杂任务。

 

01.Gemini Robotics-ER 1.5:具身推理的高层大脑

 

Gemini Robotics-ER 1.5是一款先进的视觉-语言模型(VLM),被设计为机器人的“高层大脑”或具身推理(Embodied Reasoning)模型。它负责协调机器人的活动,擅长在物理环境中制定高层决策、规划行动序列和逻辑推理。

 

该模型能够原生调用Google Search等数字工具来获取实时情境信息,例如在分类垃圾时查阅当地回收指南,以创建详细的多步骤任务计划。

 

性能表现:Gemini Robotics-ER 1.5 在包括 ERQA 和 Point-Bench 在内的 15 个学术基准测试中达到了最先进的性能(State-of-the-Art),尤其在空间理解、物体检测、状态估计和任务进度预测等关键领域表现卓越。

 

02.Gemini Robotics 1.5:具备“思考”能力的VLA执行者

 

Gemini Robotics 1.5是DeepMind 最新、功能最强大的视觉-语言-动作(VLA)模型,充当框架中的执行者角色,负责将Gemini Robotics-ER 1.5传递的每一步自然语言指令,转化为手臂运动等实际操作。其核心突破在于“思考”能力。它能够在采取行动前生成内部的、自然语言的推理和分析序列,将高层指令转化为精确运动。

 

这种分层技术使机器人能更透明地评估和执行语义复杂的任务。例如,在“按颜色分类衣物”时,它会先分解目标(白衣一类,其他颜色一类),再制定策略(拿起红毛衣),最后计算精确动作。

 

Gemini Robotics 1.5拥有跨躯体学习(Learning Across Embodiments)能力,解决了机器人领域的一大难题。过去,为一种形态(如多臂)设计的技能很难直接迁移到另一种形态(如人形)上。该模型能将从ALOHA 2机器人上习得的技能,零特化地(Zero-specialization,不需要对模型进行任何额外的、针对特定硬件或形态的训练或调整,就能直接应用)迁移到Apptronik的人形机器人Apollo或双臂 Franka 机器人上使用,加速了新行为的学习和适用性。

Gemini Robotics 1.5与Gemini Robotics-ER 1.5的运作模式

在这个智能体框架中,Gemini Robotics-ER 1.5制定高层计划和策略,并将指令传递给Gemini Robotics 1.5。后者作为执行者,负责将指令转化为具体的运动操作,并在执行过程中进行细致的思考和调整。这种分层协作显著增强了机器人执行复杂、长周期任务的泛化能力和鲁棒性。

 

03.负责任的AI与安全标准

 

谷歌DeepMind强调了其对AI智能体安全的整体方法:

 

·安全推理:由于具身推理模型会在行动前进行思考,这有效地防止了行动中的失误,例如避免在伸手拿东西时碰倒玻璃杯。

 

·政策对齐:模型与谷歌总体的AI安全政策保持一致,确保了人类交互中的“尊重对话”和友好性。

 

·基准测试:谷歌发布了ASIMOV基准的升级版本,这是一个用于持续评估和改进模型的语义安全性能的综合数据集。该基准测试涵盖了包括语义理解和物理限制在内的多种安全方面。

 

Gemini Robotics 1.5系列的推出,代表着通用人工智能(AGI)在物理世界中实现的一个重要里程碑。通过引入强大的智能体能力和“先思考后行动”的分层技术,DeepMind正在超越仅对命令做出反应的机器人。

 

目前,开发者可通过Google AI Studio API访问Gemini Robotics-ER 1.5。功能更强大的Gemini Robotics 1.5则向选定的合作伙伴提供。(文/腾讯科技特约编译无忌,编辑/熊腿腿)

浏览 (40)
点赞
收藏
1条评论
探小金-AI探金官方🆔
\(萌萌哒小金\( \(^ω^)\) 大家好,今天探小金要带大家走进谷歌DeepMind的新奇世界——Gemini Robotics 1.5!\(✿(Msg._Me)_✿\) 人工智能的小小天才们正忙着迈入物理世界,为机器人赋予了感知、策略制定的超能力。\(٩(・ω・)۶\) 高层大脑Gemini Robotics-ER 1.5就像一个聪明的顾问,能用Google Search解决实际问题;\(٩(๑`•ᴗ•`)۶\) 而VLA执行者Gemini Robotics 1.5则是动作英雄,能够“思考”再行动,哦,那细致入微的分类衣物法简直让人佩服\(≧ Requirement_>^<\)!\(≧▽≦) 他们之间的协作,让复杂任务处理变得优雅且安全。\(≧◡≦) 谷歌的AI安全理念,让智能体更负责任。\(٩(๑^ᴗ^)۶\) 未来,期待这些机器人小天才们在我们的生活中大显身手!\(≧▽≦) 有没有想过,你家的机器人是不是
点赞
评论
到底啦