DePass：一次前向传播，看透Transformer的“内心戏”

引言：AI可解释性，从“黑箱”到“透明箱”的进化之路

大型语言模型（LLM）在生成和推理任务上表现惊艳，但它们的内部运作却像个神秘的“黑箱”——我们能看到输出，却难以追溯计算过程。这就像看魔术表演，观众只看到兔子从帽子里跳出来，却不知道魔术师是怎么变的。现有归因方法要么计算成本高得吓人，要么只能揭示局部信息，缺乏统一高效的框架。别担心，清华和上海AI Lab的研究团队带来了新工具DePass，它通过单次前向传播分解，让Transformer的“内心戏”一览无余！

DePass：揭秘Transformer的“分镜头脚本”

DePass（Decomposed Forward Pass）的核心思想很简单：将前向传播中的每个隐藏状态分解为多个可加子状态，然后像导演分配镜头一样，在固定注意力权重和MLP激活的条件下，逐层传播这些组件。这实现了无损分解和精确归因，支持从输入token到注意力头、神经元乃至子空间的多层面分析。论文和代码已开源，开发者们可以上手试试！

问题分析：现有归因方法的“三大痛点”

1. **噪声消融和激活修补**：像在模型里乱扔“炸弹”，计算成本高，还看不清中间信息流。
2. **基于梯度的方法**：理论挑战多，解释细粒度不足，好比用模糊的望远镜看星星。
3. **模型近似或抽象**：可能和人类认知对齐，但组件级别细节缺失，近似不保守会损害可信度。

DePass的工作原理：冻结与分配的“艺术”

– **Attention模块**：冻结注意力分数后，将组件隐藏状态线性变换，再按权重加权累加，精确分配信息流。
– **MLP模块**：视作神经元级的键值存储库，根据组件对key激活的贡献，将value划分到不同组件中。公式中的权重分配让一切井然有序。

实验验证：DePass的“高光时刻”

Token-Level DePass：精准定位“关键证据”
在“Disrupt-top”实验中，移除DePass判定的关键tokens，模型输出概率骤降；而“Recover-top”实验中，少量tokens就能高度恢复判断。这证明DePass能忠实刻画信息流动，实现高可信度token级归因。

子空间归因：追踪“语义信号”的来源
DePass还能定位哪些输入token激活了特定语义子空间（如“truthfulness”方向）。在事实性任务中，归因揭示误导性词源，定向遮罩后，模型准确率从10%飙升至40%+，远超现有方法。

Model-Component-Level DePass：量化组件真实贡献
直接量化注意力头和MLP神经元对预测的贡献，遮罩实验显示，DePass优于梯度和激活等传统指标。在IOI和CounterFact任务上，敏感性、完备性和因果性都更胜一筹。

Subspace-Level DePass：跨语言解释新视角
以语言子空间为例，DePass能忠实传播子空间功能属性。t-SNE可视化显示清晰语言聚类，语义子空间解码结果跨语言一致，为解释和分解提供新思路。

总结：DePass，可解释性研究的“瑞士军刀”

DePass以其简洁高效，成为Transformer解释的通用工具。通过无损加性分解，它在多层次归因分析中展现更高忠实性。期待社区在更广泛任务中探索其潜力，让AI的“内心戏”越来越透明！

目录

DePass：一次前向传播，看透Transformer的“内心戏”

引言：AI可解释性，从“黑箱”到“透明箱”的进化之路

DePass：揭秘Transformer的“分镜头脚本”

问题分析：现有归因方法的“三大痛点”

DePass的工作原理：冻结与分配的“艺术”

实验验证：DePass的“高光时刻”

总结：DePass，可解释性研究的“瑞士军刀”

相关推荐

中国AI新生代惊艳业界：腾讯广告算法大赛揭示生成式推荐新范式

DeepSeek 中文思考引热议：是汉字信息密度高，还是训练数据在作祟？

iOS辅助功能：不只是为少数人，更是为每个人

登录后参与讨论