每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

长助短:监督微调中的上下文长度如何影响大型语言模型的行为

Created by
  • Haebom

作者

郑英明、李涵琪、余凯、陈璐

大纲

本文研究了大规模语言模型 (LLM)。由于越来越多的实际应用需要长上下文窗口,使用长上下文数据进行连续预训练和监督微调 (SFT) 已成为常用方法。虽然先前的研究已经广泛调查了数据长度对连续预训练的影响,但其对 SFT 的影响仍不清楚。本研究系统地研究了 SFT 数据长度对 LLM 在短上下文任务中性能的影响。与直觉相反,我们发现长上下文 SFT 可以提高短上下文性能。这一发现与通常使用长上下文预训练时观察到的性能下降相反。为了阐明这一现象的潜在机制,我们解构了两个关键组件:多头注意力 (MHA) 和前馈网络 (FFN),证明这两个组件都独立地受益于长上下文 SFT。此外,我们研究了它们之间的相互作用,揭示了一种知识偏好偏差:长语境SFT偏向于语境知识,而短语境SFT偏向于参数知识。因此,单纯依赖长语境SFT并非最佳方案。最后,我们表明混合训练可以缓解这些偏差,为LLM的微调提供可解释的指导。

Takeaways, Limitations

Takeaways:
我们发现长上下文 SFT 提高了 LLM 在短上下文任务上的表现,这一发现与之前的研究相矛盾。
MHA 和 FFN 都独立受益于长上下文 SFT。
长语境 SFT 揭示了有利于语境知识的知识偏好偏差,而短语境 SFT 揭示了有利于参数知识的知识偏好偏差。
通过混合训练减轻知识偏好偏差,并为微调 LLM 提供可解释的指导。
Limitations:
本研究可能仅限于特定类型的法学硕士(LLM)和数据集。未来需要对更广泛的法学硕士(LLM)和数据集进行进一步研究。
混合训练的最佳策略仍需进一步研究,缺乏对混合比例等具体参数调整的深入分析。
需要对知识偏好偏差的原因进行更深入的机制分析。
👍