星火AI
首页 灵感 学院 工具 投稿
首页 / 行业动态 / 正文详情 返回列表

中兴EmbodiedBrain:让AI学会“三思而后行”,具身智能不再“纸上谈兵”

jasper
📰 资讯 2025-12-04
5 阅读

引言:具身智能的“最后一公里”难题

想象一下,你让一个AI机器人去厨房拿个苹果,它却卡在门口思考人生——这不是科幻电影里的搞笑桥段,而是当前具身智能面临的真实困境。大语言模型虽然能写诗编程,但一到物理世界就变成了“理论巨人,行动矮子”。中兴星云大脑团队最近推出的EmbodiedBrain模型,就是要解决这个“最后一公里”问题,让AI真正学会在现实世界中规划任务、执行动作。

架构设计:从“看图说话”到“动手干活”

EmbodiedBrain基于Qwen2.5-VL框架,但做了关键升级:它不再是简单的“输入-输出”模型,而是构建了完整的“感知-推理-行动”闭环。简单来说,就是让AI先看清楚(视觉编码器),再想明白(语言模型解码器),最后动手做(动作生成)。

**三大核心组件各显神通:**
1. **视觉编码器**:采用原生分辨率ViT,能像人类一样关注图像细节,同时用二维旋转位置编码保留空间关系——相当于给AI装上了“立体视觉”。
2. **多模态融合器**:这个轻量级MLP就像翻译官,把视觉信息和语言指令“翻译”成统一语言,避免出现“鸡同鸭讲”的尴尬。
3. **认知解码器**:基于Qwen2.5初始化,专门强化了对视频时序的理解能力,让AI能看懂“连续剧”而不仅仅是“静态照片”。

最有趣的是输出格式:模型会同时生成自然语言回复、分步规划和可执行动作。比如让它“从冰箱取番茄并加热”,它会先礼貌回应(),然后规划“导航至冰箱→打开冰箱→取出番茄…”(),最后生成具体动作指令()。这就像有个既会思考又会动手的完美助手!

训练秘籍:数据配方和“分步教学法”

### 数据配方:四类食材精心调配

团队为EmbodiedBrain准备了丰盛的“数据大餐”,包含四大类:
– **通用多模态数据**(52K样本):打好基础,学会理解各种指令
– **空间推理数据**(130K样本):强化3D空间感知,不再“路痴”
– **任务规划数据**(51.5K样本):学习拆解复杂任务
– **视频理解数据**(20K样本):看懂动态场景,把握时序关系

经过反复试验,这个“52:130:51.5:20”的配方被证明效果最佳——在空间推理和任务规划上都取得了平衡的高分。

### 训练策略:两阶段“养成计划”

**第一阶段:监督微调(SFT)**
用“粗粒度过滤+细粒度验证”的两阶段拒绝采样清洗数据,确保AI学到的都是“真知识”而不是“网络谣言”。

**第二阶段:Step-GRPO强化学习**
这是EmbodiedBrain的“独门秘籍”。传统强化学习训练长任务就像让新手直接解高数题,容易崩溃。Step-GRPO引入了“引导先验”机制——随机给AI一些中间步骤提示,帮助它建立步骤间的逻辑关系。

举个例子,训练“寻找画笔”任务时,系统可能先提示“导航至设备架”,再让AI完成后续步骤。这种“分步教学法”不仅让学习更稳定,还实现了20%的训练加速!

性能实测:不只是“考试高手”

团队设计了三维评估体系,覆盖14项基准测试:

### 通用能力:多面手依旧在线

在MM-IFEval指令遵循测试中,EmbodiedBrain-32B得分46.98%,超越Qwen2.5-VL和RoboBrain 2.0,证明它在专注具身智能的同时,没有丢掉“老本行”。

### 空间感知:3D导航专家

在BLINK空间关系理解测试中,7B版本得分88.11%,比RoboBrain 2.0 7B高出39.99%——这提升幅度,相当于从“路痴”升级为“活地图”。

### 任务规划:真刀真枪的考验

最精彩的是端到端仿真测试。团队开源了VLM-PlanSim-99基准,包含99个手动验证的家庭任务。在这里,EmbodiedBrain-32B取得了46.46%的成功率,几乎是竞品的两倍!

这意味着什么?它不是一个只会做选择题的“考试机器”,而是真正能在仿真环境中完成复杂任务的“实干家”。比如“清洗碗具并冷藏”任务,它能生成完整的11步执行序列,每一步都符合物理逻辑。

开源生态与未来展望

中兴团队将整个项目开源,包括训练数据、模型权重和评估工具,还贡献了创新的VLM-PlanSim-99仿真环境。这就像不仅做出了美味蛋糕,还把食谱和厨房都开放给大家。

未来,EmbodiedBrain将向两个方向拓展:一是多智能体协作,让多个AI机器人学会团队合作;二是领域随机化,提高在不同机器人平台上的适应性。

结语:具身智能的“实用主义”突破

EmbodiedBrain的突破在于它不再追求单一的“刷榜”高分,而是真正解决具身智能的实用性问题。通过创新的架构设计、精心调配的数据配方和独创的Step-GRPO训练方法,它让AI学会了“三思而后行”——先规划,再行动,在复杂物理世界中稳健执行任务。

这不仅是技术上的进步,更是研究范式的转变:从追求“纸上高分”到注重“实际能力”。随着这样的模型不断成熟,也许不久的将来,我们真的能看到AI机器人流畅地完成各种家务——当然,希望它们不会抱怨“又要我洗碗”。

分享到:
🔒

登录后参与讨论

加入社区,与大家分享您的独特见解。

立即登录