每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

解开混合线性注意力转换方法中的成分不平衡

Created by
  • Haebom

作者

马丁·本菲古尔、特蕾莎·德尔加多、阿德南·奥默吉、海瑟姆·布·阿马尔、王军、扎菲里奥斯·丰塔斯

大纲

尽管 Transformer 性能卓越,但其二次方计算复杂度限制了其可扩展性。线性注意力机制将这个问题简化为线性复杂度,但从头开始预训练此类模型通常成本高昂。近期的训练后线性化方法可以有效地将预训练的 Transformer 转换为线性模型,通常使用结合滑动窗口 softmax 和线性注意力机制的混合方法。本研究揭示了现有混合方法的一个关键缺陷:它们无意中绕过了线性组件,几乎完全依赖于 SWA。组件级诊断表明,这种先前未被发现的行为源于常识性基准测试中被忽视的评估实践。为了确保组件利用率的均衡,本研究提出了三种解决方案:(i) 使用滑动窗口 softmax 进行纯线性转换的推理时间混合;(ii) 将注意力权重转移与目标 LoRA 微调相结合的 HedgeCAT;以及 (iii) 计划滑动窗口丢弃 (SSD),它在训练过程中以概率方式抑制 softmax 分支,以防止组件崩溃。所提出的方法在保持计算效率的同时恢复了大部分基础模型性能,并确保采用真正的线性注意力,从而恢复了混合转换中性能归因的有效性。

Takeaways, Limitations

现有混合线性化方法存在的问题:线性注意力成分没有得到适当利用,并且过度依赖SWA。
问题的根源:忽视了以常识为基准的评估实践。
建议的解决方案:
推理时间混合
HedgeCATs(注意力权重传输+LoRA微调)
SSD(预定滑动窗口丢弃)
方案优点:保持计算效率,恢复基础模型性能,确保真正的线性注意力。
结论:恢复混合线性化方法性能归因的有效性。
👍