本論文は、長文テキスト入力を処理し推論する大規模言語モデル(LLM)の能力を向上させるための合成長文コンテキストデータ生成フレームワークを提案する。既存の高品質、多様で検証可能な長文コンテキストデータセット不足の問題を解決するために、プロンプトベースのLLMインタラクションを介してデータを生成するモジュール式で拡張可能なフレームワークを提示します。このフレームワークは、SFT、DPO、GRPOなどの多様な学習およびソート目標をサポートし、多重会話、文書ベースの入出力ペア、検証可能な指示 - 応答操作、長文推論の例など、4つのデータ生成パラダイムを含みます。テンプレートベースのプロンプト、モデルに依存しないアーキテクチャ、メタデータの豊富な出力を介してスケーラブルで制御可能で、目的に合ったデータセットの作成を容易にします。