Dans cet article, nous présentons une nouvelle méthode pour résoudre le problème d'oubli catastrophique qui survient dans les méthodes de réglage fin supervisé (SFT) afin d'améliorer la capacité de suivi des instructions des modèles de langage à grande échelle (LLM) open source. Sans accès aux données SFT originales, nous reconstruisons la distribution des instructions du modèle de base et synthétisons un ensemble de données polyvalent de haute qualité grâce à un pipeline de génération et de filtrage multi-modèles. En combinant cet ensemble de données synthétiques avec de nouvelles données spécifiques au domaine et en l'affinant, nous démontrons expérimentalement qu'il améliore les performances de tâches spécifiques sans dégrader les performances dans le domaine général.