본 논문은 장문 맥락 데이터를 이용한 지속적 사전 훈련과 지도 학습 미세 조정(SFT)이 장문 맥락 창을 요구하는 실제 응용 프로그램의 증가 추세에 따라 일반적인 접근 방식이 된 대규모 언어 모델(LLM)에 관한 연구입니다. 기존 연구는 지속적 사전 훈련에서 데이터 길이의 영향을 광범위하게 연구했지만, SFT에 대한 영향은 불분명했습니다. 본 연구는 SFT 데이터 길이가 단문 맥락 작업에서 LLM의 행동에 미치는 영향을 체계적으로 조사하여, 반직관적으로 장문 맥락 SFT가 단문 맥락 성능을 향상시킨다는 것을 발견했습니다. 이는 장문 맥락 사전 훈련에서 일반적으로 관찰되는 성능 저하와는 상반되는 결과입니다. 이 현상의 근본적인 메커니즘을 밝히기 위해 다중 헤드 어텐션(MHA)과 피드포워드 네트워크(FFN)라는 두 가지 핵심 구성 요소를 분리 분석하여 두 구성 요소 모두 장문 맥락 SFT로부터 독립적으로 이점을 얻는다는 것을 보였습니다. 또한, 이들의 상호 작용을 연구하여 장문 맥락 SFT는 문맥적 지식을, 단문 맥락 SFT는 매개변수적 지식을 선호하는 지식 선호 편향을 밝혀냈습니다. 따라서 장문 맥락 SFT에만 의존하는 것은 최적이 아닙니다. 마지막으로, 하이브리드 훈련이 이러한 편향을 완화하여 LLM 미세 조정에 대한 설명 가능한 지침을 제공한다는 것을 보여줍니다.