본 논문은 긴 문맥 창을 가진 대규모 언어 모델(LLM)의 성능 향상을 위해 긴 문서의 부족 문제를 해결하는 새로운 프레임워크인 NExtLong을 제안합니다. NExtLong은 문서를 여러 메타 청크로 분해하고, 사전 훈련된 말뭉치에서 가져온 어려운 부정적인 방해 요소를 삽입하여 문맥을 확장합니다. 이를 통해 모델은 장거리 의존적인 문맥과 방해 요소를 구별하도록 강제하여 장거리 의존성 모델링 능력을 향상시킵니다. 실험 결과, NExtLong은 기존의 긴 문맥 합성 방법 및 합성되지 않은 긴 문서로 훈련된 최첨단 모델들에 비해 HELMET 및 RULER 벤치마크에서 성능이 크게 향상됨을 보여줍니다. 따라서 NExtLong은 합성되지 않은 긴 문서에 대한 의존도를 줄여 고급 긴 문맥 LLM을 개발하는 효과적인 프레임워크임을 강조합니다.