Nous présentons les résultats d'une étude appliquant l'apprentissage par renforcement à long terme à des modèles linguistiques à petite échelle afin d'améliorer les performances dans divers domaines d'inférence tels que les mathématiques, le codage et les énigmes logiques. Nous avons réalisé un entraînement efficace en utilisant des signaux de récompense vérifiables, en améliorant l'optimisation de la politique relative de groupe (GRPO) et en contrôlant la régularisation KL, le taux d'écrêtage et la réinitialisation périodique de la politique de référence afin d'améliorer la stabilité de l'entraînement et les performances de généralisation. Nous avons ainsi constaté des améliorations significatives des performances par rapport aux modèles de pointe existants en mathématiques (+14,7 %), en codage (+13,9 %) et en énigmes logiques (+54,8 %). Nous rendons publics les modèles entraînés afin de soutenir les recherches ultérieures.