星火AI
首页 灵感 学院 工具 投稿
首页 / 行业动态 / 正文详情 返回列表

DePass:让Transformer“自曝”内部秘密,一次前向传播搞定所有归因!

jasper
📰 资讯 2025-12-02
8 阅读

引言:AI黑箱的“照妖镜”来了!

大型语言模型(LLM)在生成和推理任务上大放异彩,但它们的内部运作却像个神秘的黑箱——我们常常不知道模型为什么做出某个决策。现有归因方法要么计算成本高得吓人,要么只能管中窥豹,难以统一分析不同层面的信息流。现在,清华大学和上海AI Lab的研究团队推出了DePass(Decomposed Forward Pass),一个通过单次前向传播就能实现统一特征归因的新框架,简直是AI可解释性领域的“瑞士军刀”!

问题:现有归因方法为何“力不从心”?

想象一下,你想拆解一个Transformer模型,看看每个部分如何贡献最终输出。现有方法就像是用锤子敲打——基于噪声消融和激活修补的方法计算昂贵,还看不清中间信息流;基于梯度的方法理论上有漏洞,难以细粒度解释;而基于模型近似的方法虽然能对齐人类认知,但往往牺牲了组件级别的精度,可信度打折扣。总之,它们要么太笨重,要么太粗糙,缺乏一个高效统一的解决方案。

DePass:如何用“分而治之”破解归因难题?

DePass的核心思想很巧妙:将前向传播中的每个隐藏状态分解成多个可加的子状态,然后像分蛋糕一样,在固定注意力权重和MLP激活的情况下,把这些子状态逐层传播。这样一来,Transformer内部的信息流就被无损分解,归因变得精准又高效。

– **对于Attention模块**:DePass先冻结注意力分数,然后把各组件的隐藏状态线性变换,再根据注意力权重加权累加到对应组件。这就像给信息流贴上了“快递单”,确保每个token的贡献都能追踪到位。
– **对于MLP模块**:DePass把它看作一个键值存储库,通过不同组件对key激活值的贡献,把value划分到同一token的不同组件中。简单说,就是让神经元“各司其职”,归因更清晰。

实验验证:DePass真的“能打”吗?

研究团队在多个层面验证了DePass的有效性,结果令人振奋:

– **Token级归因**:在“Disrupt-top”实验中,移除DePass判定的关键tokens,模型输出概率暴跌;而在“Recover-top”实验中,仅保留少量tokens就能高度恢复模型判断。这说明DePass能精准识别驱动预测的核心证据,让模型“说实话”。
– **子空间归因**:DePass还能追踪哪些输入token激活了特定语义子空间(比如“真实性”方向)。在事实性任务中,通过归因揭示误导性信息,定向遮罩后模型准确率从10%飙升至40%以上,远超现有方法。
– **模型组件级归因**:DePass直接量化注意力头和MLP神经元的贡献,遮罩实验显示其敏感性、完备性和因果性都优于传统指标如梯度和激活。
– **子空间级归因**:以语言子空间为例,DePass能忠实传播子空间功能,跨语言解码结果一致,为语义分解提供了新视角。

总结:DePass——可解释性研究的“通用神器”

DePass不仅简洁高效,还能无缝适配各种Transformer架构,在多层次归因分析中展现出更高的忠实性。它有望成为机制可解释性研究的通用工具,推动社区探索更广泛的应用。想象一下,未来我们或许能像调试代码一样调试AI模型,DePass正是迈向这一步的关键!

**论文链接**:https://arxiv.org/pdf/2510.18462
**代码链接**:https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

分享到:
🔒

登录后参与讨论

加入社区,与大家分享您的独特见解。

立即登录