每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

长助短:监督微调中的上下文长度如何影响大型语言模型的行为

Created by
  • Haebom

作者

郑英明、李涵琪、余凯、陈璐

大纲

大规模语言模型 (LLM) 在自然语言处理 (NLP) 任务中展现出令人瞩目的性能。随着实际应用中对长上下文窗口的需求不断增长,对长上下文数据进行持续预训练和监督微调 (SFT) 已成为一种常用方法。虽然数据长度对持续预训练的影响已被广泛研究,但其对 SFT 的影响仍不清楚。在本研究中,我们系统地研究了 SFT 数据长度如何影响短上下文任务中 LLM 的性能。矛盾的是,我们发现长上下文 SFT 可以提高短上下文性能,这与通常观察到的长上下文预训练的性能下降相反。为了阐明这一现象的潜在机制,我们分别分析了两个主要组成部分——多头注意力 (MHA) 和前馈网络 (FFN),并表明这两个组成部分都独立地受益于长上下文 SFT。此外,我们研究了它们之间的相互作用,揭示了知识偏好偏差:长语境SFT促进语境知识,而短语境SFT则偏向参数知识,这表明单纯依赖长语境SFT并非最优选择。最后,我们证明了混合训练可以缓解这些偏差,为LLM的微调提供了可解释的指导。

Takeaways, Limitations

长语境SFT可以提高短语境任务的表现。
MHA 和 FFN 都受益于长上下文 SFT。
长上下文 SFT 具有有利于上下文知识的知识偏差,而短上下文 SFT 具有有利于参数知识的知识偏差。
混合训练可以减轻这些偏见。
本研究可能仅调查了 SFT 数据长度对狭窄范围任务的影响,而对其他任务类型的普遍性可能需要进一步研究。
👍