Cet article propose CoT-Self-Instruct, une méthode de génération de données synthétiques de haute qualité pour les modèles de langage à grande échelle (LLM). Basé sur une tâche initiale, CoT-Self-Instruct infère et planifie d'abord le LLM via la chaîne de pensée (CoT), puis génère de nouvelles données synthétiques de qualité et de complexité similaires. Cette étape est suivie d'une étape de filtrage qui sélectionne les données de haute qualité à l'aide de mesures d'évaluation automatique, et les données sélectionnées sont utilisées pour l'entraînement des LLM. Les résultats expérimentaux montrent que CoT-Self-Instruct surpasse les jeux de données d'entraînement existants (s1k, OpenMathReasoning) sur les tâches de raisonnement vérifiables (MATH500, AMC23, AIME24, GPQA-Diamond) ainsi que les données générées par l'homme et les données d'entraînement d'auto-instruction standard sur les tâches de suivi d'instructions non vérifiables (AlpacaEval 2.0, Arena-Hard).