본 논문은 장문 텍스트 입력을 처리하고 추론하는 대규모 언어 모델(LLM)의 능력을 향상시키기 위한 합성 장문 컨텍스트 데이터 생성 프레임워크를 제안한다. 기존의 고품질, 다양하고 검증 가능한 장문 컨텍스트 데이터셋 부족 문제를 해결하기 위해, 프롬프트 기반 LLM 상호작용을 통해 데이터를 생성하는 모듈식이고 확장 가능한 프레임워크를 제시한다. 이 프레임워크는 SFT, DPO, GRPO 등 다양한 학습 및 정렬 목표를 지원하며, 다회차 대화, 문서 기반 입출력 쌍, 검증 가능한 지시-응답 작업, 장문 추론 예제 등 네 가지 데이터 생성 패러다임을 포함한다. 템플릿 기반 프롬프팅, 모델 독립적인 아키텍처, 메타데이터가 풍부한 출력을 통해 확장 가능하고, 제어 가능하며, 목적에 맞는 데이터셋 생성을 용이하게 한다.