S'appuyant sur des recherches antérieures démontrant que l'apprentissage par renforcement (RL) ne permet pas à lui seul de créer des modèles de langage à grande échelle (LLM) dotés de capacités de raisonnement, cet article propose ThinkTuning, une nouvelle méthode d'entraînement de modèles dépourvus de capacités de raisonnement. ThinkTuning est une approche d'apprentissage interactif basée sur GRPO qui optimise le déploiement d'un modèle d'élève guidé par un modèle d'enseignant. Le modèle d'enseignant présente les problèmes et fournit des commentaires correctifs sur les réponses du modèle d'élève, améliorant ainsi sa capacité de raisonnement. Les résultats expérimentaux montrent que ThinkTuning améliore les performances de 3,85 % en moyenne par rapport à la base de référence zéro-shot sur divers tests, et de 2,08 %, 2,23 % et 3,99 % respectivement sur MATH-500, AIME et GPQA-Diamond. Le code source est disponible sur GitHub.