この論文は、オープンソース大規模言語モデル(LLM)の指示に従う能力を向上させるための地図微調整(SFT)法で発生するカタストロフィックforgetting問題を解決する新しい方法を提供します。既存のSFTデータにアクセスせずに、基本モデルの指示分布を再構成し、マルチモデル生成およびフィルタリングパイプラインを介して高品質の汎用データセットを合成します。この合成データセットを新しいドメイン特化データと混合して微調整することで、一般ドメインでの性能低下を起こさずに特定の作業性能を向上させることを実験的に確認しました。