Basándose en investigaciones previas que demuestran que el aprendizaje por refuerzo (RL) por sí solo no puede crear modelos lingüísticos a gran escala (LLM) con capacidad de razonamiento, este artículo propone ThinkTuning, un novedoso método para entrenar modelos que carecen de capacidad de razonamiento. ThinkTuning es un enfoque de aprendizaje interactivo basado en GRPO que mejora la implementación de un modelo de estudiante guiado por un modelo de profesor. El modelo de profesor plantea problemas y proporciona retroalimentación correctiva sobre las respuestas del modelo de estudiante, mejorando así su capacidad de razonamiento. Los resultados experimentales muestran que ThinkTuning mejora el rendimiento en un promedio del 3,85 % con respecto a la línea base de cero disparos en diversas pruebas de referencia, y en un 2,08 %, 2,23 % y 3,99 % en MATH-500, AIME y GPQA-Diamond, respectivamente. El código fuente está disponible en GitHub.