本文研究了大规模语言模型 (LLM)。由于越来越多的实际应用需要长上下文窗口,使用长上下文数据进行连续预训练和监督微调 (SFT) 已成为常用方法。虽然先前的研究已经广泛调查了数据长度对连续预训练的影响,但其对 SFT 的影响仍不清楚。本研究系统地研究了 SFT 数据长度对 LLM 在短上下文任务中性能的影响。与直觉相反,我们发现长上下文 SFT 可以提高短上下文性能。这一发现与通常使用长上下文预训练时观察到的性能下降相反。为了阐明这一现象的潜在机制,我们解构了两个关键组件:多头注意力 (MHA) 和前馈网络 (FFN),证明这两个组件都独立地受益于长上下文 SFT。此外,我们研究了它们之间的相互作用,揭示了一种知识偏好偏差:长语境SFT偏向于语境知识,而短语境SFT偏向于参数知识。因此,单纯依赖长语境SFT并非最佳方案。最后,我们表明混合训练可以缓解这些偏差,为LLM的微调提供可解释的指导。