
引言:AI可解释性,从“黑箱”到“透明箱”的进化之路
大型语言模型(LLM)在生成和推理任务上表现惊艳,但它们的内部运作却像个神秘的“黑箱”——我们能看到输出,却难以追溯计算过程。这就像看魔术表演,观众只看到兔子从帽子里跳出来,却不知道魔术师是怎么变的。现有归因方法要么计算成本高得吓人,要么只能揭示局部信息,缺乏统一高效的框架。别担心,清华和上海AI Lab的研究团队带来了新工具DePass,它通过单次前向传播分解,让Transformer的“内心戏”一览无余!
DePass:揭秘Transformer的“分镜头脚本”
DePass(Decomposed Forward Pass)的核心思想很简单:将前向传播中的每个隐藏状态分解为多个可加子状态,然后像导演分配镜头一样,在固定注意力权重和MLP激活的条件下,逐层传播这些组件。这实现了无损分解和精确归因,支持从输入token到注意力头、神经元乃至子空间的多层面分析。论文和代码已开源,开发者们可以上手试试!
问题分析:现有归因方法的“三大痛点”
1. **噪声消融和激活修补**:像在模型里乱扔“炸弹”,计算成本高,还看不清中间信息流。
2. **基于梯度的方法**:理论挑战多,解释细粒度不足,好比用模糊的望远镜看星星。
3. **模型近似或抽象**:可能和人类认知对齐,但组件级别细节缺失,近似不保守会损害可信度。
DePass的工作原理:冻结与分配的“艺术”
– **Attention模块**:冻结注意力分数后,将组件隐藏状态线性变换,再按权重加权累加,精确分配信息流。
– **MLP模块**:视作神经元级的键值存储库,根据组件对key激活的贡献,将value划分到不同组件中。公式中的权重分配让一切井然有序。
实验验证:DePass的“高光时刻”
Token-Level DePass:精准定位“关键证据”
在“Disrupt-top”实验中,移除DePass判定的关键tokens,模型输出概率骤降;而“Recover-top”实验中,少量tokens就能高度恢复判断。这证明DePass能忠实刻画信息流动,实现高可信度token级归因。
子空间归因:追踪“语义信号”的来源
DePass还能定位哪些输入token激活了特定语义子空间(如“truthfulness”方向)。在事实性任务中,归因揭示误导性词源,定向遮罩后,模型准确率从10%飙升至40%+,远超现有方法。
Model-Component-Level DePass:量化组件真实贡献
直接量化注意力头和MLP神经元对预测的贡献,遮罩实验显示,DePass优于梯度和激活等传统指标。在IOI和CounterFact任务上,敏感性、完备性和因果性都更胜一筹。
Subspace-Level DePass:跨语言解释新视角
以语言子空间为例,DePass能忠实传播子空间功能属性。t-SNE可视化显示清晰语言聚类,语义子空间解码结果跨语言一致,为解释和分解提供新思路。
总结:DePass,可解释性研究的“瑞士军刀”
DePass以其简洁高效,成为Transformer解释的通用工具。通过无损加性分解,它在多层次归因分析中展现更高忠实性。期待社区在更广泛任务中探索其潜力,让AI的“内心戏”越来越透明!
登录后参与讨论
加入社区,与大家分享您的独特见解。
立即登录