Este artículo propone CoT-Self-Instruct, un método de generación de datos sintéticos de alta calidad para modelos de lenguaje a gran escala (LLM). A partir de una tarea inicial, CoT-Self-Instruct primero infiere y planifica el LLM mediante Cadena de Pensamiento (CoT) y, a continuación, genera nuevos datos sintéticos de calidad y complejidad similares. A continuación, se realiza un filtrado que selecciona datos de alta calidad mediante métricas de evaluación automáticas, y los datos seleccionados se utilizan para el entrenamiento del LLM. Los resultados experimentales muestran que CoT-Self-Instruct supera a los conjuntos de datos de entrenamiento existentes (s1k, OpenMathReasoning) en tareas de razonamiento verificables (MATH500, AMC23, AIME24, GPQA-Diamond), así como a los datos generados por humanos y a los datos de entrenamiento de autoinstrucción estándar en tareas de seguimiento de instrucciones no verificables (AlpacaEval 2.0, Arena-Hard).