
从“数据融合”到“原生架构”:多模态AI的进化之路
还记得那些“拼凑”出来的多模态模型吗?它们就像是用胶水把视觉编码器和语言模型粘在一起,虽然能勉强看懂图片,但处理复杂场景时总显得力不从心。商汤科技最近发布的NEO架构,彻底告别了这种“模块化”范式,从底层重新设计,让视觉和语言真正融为一体。这可不是简单的升级,而是多模态技术正式迈入“原生架构”时代的标志!
三大内核创新:让AI“天生”懂图文
NEO架构的核心在于三个底层创新,让模型像人类一样自然地处理视觉和语言信息:
**原生图块嵌入**:抛弃了传统的图像tokenizer,通过独创的Patch Embedding Layer,直接从像素构建到词元的连续映射。这意味着模型能更精细地捕捉图像细节,再也不用担心“看”不清图片里的猫是橘猫还是狸花猫了!
**原生三维旋转位置编码**:创新性地解耦了三维时空频率分配,视觉用高频、文本用低频,完美适配两种模态的自然结构。这不仅让模型精准理解图像空间,还为视频处理和跨帧建模打开了新大门——未来AI追剧可能比你还投入!
**原生多头注意力**:在统一框架下,文本token用自回归注意力,视觉token用双向注意力,两者和谐共存。这种设计极大提升了模型对空间结构的利用率,让AI在图文混合推理时不再“一头雾水”。
实测表现:十分之一数据,追平旗舰性能
光说不练假把式,NEO在实战中的表现堪称惊艳:
– **极高数据效率**:仅需业界同等性能模型1/10的数据量(3.9亿图像文本示例),就能开发出顶尖的视觉感知能力。无需海量数据和额外视觉编码器,简洁架构便在多项任务中追平Qwen2-VL、InternVL3等顶级模块化模型——这就像用十分之一的食材做出了米其林三星大餐!
– **性能卓越且均衡**:在MMMU、MMB、MMStar等多项权威评测中,NEO均斩获高分,展现出优于其他原生VLM的综合性能,真正实现了“精度无损”。
– **极致推理性价比**:在0.6B-8B参数区间内,NEO在边缘部署方面优势显著,不仅精度效率双提升,还大幅降低了推理成本。多模态视觉感知的“性价比”被推向极致,让更多开发者用得起、用得好。
开源共建:打造下一代AI基础设施
商汤已正式开源基于NEO架构的2B与9B两种规格模型,推动开源社区在原生多模态架构上的创新与应用。从机器人具身交互到智能终端多模态响应,从视频理解到3D交互,NEO为多元化场景提供了坚实的技术支撑。
架构是模型的“骨架”,只有骨架扎实,才能支撑起多模态技术的未来。NEO的早期融合设计支持任意分辨率与长图像输入,能无缝扩展至视频、具身智能等前沿领域,实现从底层到顶层的真正融合。商汤通过开源协作与场景落地双轮驱动,致力于将NEO打造为可扩展、可复用的下一代AI基础设施,加速构建产业级原生多模态技术标准。
论文网址:https://arxiv.org/abs/2510.14979
Github开源网址:https://github.com/EvolvingLMMs-Lab/NEO
所以,下次当你看到AI轻松理解图文混合内容时,别忘了背后可能有NEO架构在默默支撑——它让多模态AI不再“拼凑”,而是真正“原生”地拥抱这个世界!
登录后参与讨论
加入社区,与大家分享您的独特见解。
立即登录