尽管 Transformer 性能卓越,但其二次方计算复杂度限制了其可扩展性。线性注意力机制将这个问题简化为线性复杂度,但从头开始预训练此类模型通常成本高昂。近期的训练后线性化方法可以有效地将预训练的 Transformer 转换为线性模型,通常使用结合滑动窗口 softmax 和线性注意力机制的混合方法。本研究揭示了现有混合方法的一个关键缺陷:它们无意中绕过了线性组件,几乎完全依赖于 SWA。组件级诊断表明,这种先前未被发现的行为源于常识性基准测试中被忽视的评估实践。为了确保组件利用率的均衡,本研究提出了三种解决方案:(i) 使用滑动窗口 softmax 进行纯线性转换的推理时间混合;(ii) 将注意力权重转移与目标 LoRA 微调相结合的 HedgeCAT;以及 (iii) 计划滑动窗口丢弃 (SSD),它在训练过程中以概率方式抑制 softmax 分支,以防止组件崩溃。所提出的方法在保持计算效率的同时恢复了大部分基础模型性能,并确保采用真正的线性注意力,从而恢复了混合转换中性能归因的有效性。