
引言:统一模型的“拆家”困境
近一年来,统一理解与生成模型(如Emu3、Janus-Pro)发展迅猛,但面临一个核心挑战:视觉理解和生成任务在网络层间会“打架”。早期完全统一模型性能远逊于单任务模型,于是研究者们开始“拆家”——通过架构解耦(如BAGEL)来提升性能。这招虽灵,却让人不禁怀疑:拆得七零八落,还叫“统一”模型吗?香港中文大学MMLab和美团的研究者最近推出AIA损失,大声宣布:**架构解耦不是必须的!** 让我们一探究竟。
统一模型的初心:图文交错思考
统一模型的初衷可不是为了拆架构玩拼图。它旨在通过透明化、合理化的图文交错思考,提升单任务性能。想象一下:模型走迷宫时能生成每一步对应的图像,做数学题时给图像画辅助线,生成图像时边画边思考并自动修正——这才是Uni-MMMU等基准关注的,也是这个领域存在的意义。然而,架构解耦模型(如BAGEL)要实现图文交错思考,得经历隐空间解码到文字或像素空间、再编码回隐空间的复杂过程,导致计算开销大、信息丢失。虽然目前性能提升显著,但研究者警告:随着研究深入,这将成为大问题。
AIA的发现:任务冲突是“天性”
为了探究架构解耦提升性能的内在原因,并寻找不解耦的替代方案,研究者推出了AIA(Attention Interaction Alignment)。他们首先研究了不同架构统一模型中跨模态交互的强度,结果令人惊讶:**不管怎么解耦,理解和生成任务在同一层网络中始终呈负相关**。这意味着模型自发在学习分配任务占比以“缓解冲突”,而架构解耦本质上没解决冲突问题。更关键的是,随着解耦程度增强,跨模态交互模式会趋向单任务表现——这正是性能提升的主因。
AIA损失:显式引导,不解耦也变强
基于这一发现,研究者设计了AIA损失,将单任务模型的跨模态交互模式作为学习目标,在训练中显式约束统一模型的交互模式。实验在Emu3(完全统一架构)和Janus-Pro(轻微解耦架构)上进行,结果显示:**AIA能在没有任何其他技巧的情况下提升模型性能,缩小与高解耦模型的差距**。交互模式曲线也向单任务模型靠近,证明了AIA的有效性,并说明架构解耦不是唯一提升性能的方式。
训练实战:AIA好训吗?
研究者微调了Emu3(基于预训练权重)和Janus-Pro(基于SFT微调权重),通过调整AIA损失与next-token-prediction损失的比重测试敏感度。结果发现:Emu3预训练知识较薄弱,AIA在很大范围内都能稳定收敛;Janus-Pro预训练知识强,AIA容易影响训练,但合适比重下效果仍佳。这为实际应用提供了灵活调整空间。
AIA的优势:协同优化,减少数据配比烦恼
AIA损失的加入还能减少常见的数据配比工程问题。在生成与理解数据配比1:1的情况下,AIA能达到更好效果,说明两个任务训练不再冲突,产生了协同优化。这或许意味着,我们不再需要为数据比例绞尽脑汁,模型自己就能“和谐共处”。
未来展望:任务冲突或是统一模型的“特色”
结合现有问题与实验分析,研究者提出:任务间负相关可能不是需要避免的问题,而是统一模型的天然特性。模型能通过输入序列和特殊token识别任务并自动调整交互。另一条路径是移除所有任务线索(如统一分词器、消除特殊token),迫使模型从输入中学习真正统一空间,但这会大幅增加训练难度。AIA迈出了原理分析的第一步,研究者呼吁更多同行关注统一模型的真正意义,而非一味追求单任务基准性能。
总之,AIA损失为统一多模态模型训练提供了新思路:不必拆家,也能变强!未来,随着像Emu3.5这样的模型出现,完全统一与高解耦模型的差距有望缩小。让我们期待更多创新解法,让统一模型真正“统一”起来!
登录后参与讨论
加入社区,与大家分享您的独特见解。
立即登录