大规模语言模型 (LLM) 在自然语言处理 (NLP) 任务中展现出令人瞩目的性能。随着实际应用中对长上下文窗口的需求不断增长,对长上下文数据进行持续预训练和监督微调 (SFT) 已成为一种常用方法。虽然数据长度对持续预训练的影响已被广泛研究,但其对 SFT 的影响仍不清楚。在本研究中,我们系统地研究了 SFT 数据长度如何影响短上下文任务中 LLM 的性能。矛盾的是,我们发现长上下文 SFT 可以提高短上下文性能,这与通常观察到的长上下文预训练的性能下降相反。为了阐明这一现象的潜在机制,我们分别分析了两个主要组成部分——多头注意力 (MHA) 和前馈网络 (FFN),并表明这两个组成部分都独立地受益于长上下文 SFT。此外,我们研究了它们之间的相互作用,揭示了知识偏好偏差:长语境SFT促进语境知识,而短语境SFT则偏向参数知识,这表明单纯依赖长语境SFT并非最优选择。最后,我们证明了混合训练可以缓解这些偏差,为LLM的微调提供了可解释的指导。