Cet article aborde les limites de l'apprentissage par renforcement (RL) pour améliorer les performances d'inférence des modèles linguistiques à grande échelle (LLM) et propose un nouveau système de récompense, la récompense d'efficacité du raisonnement dynamique (DRER). Les fonctions de récompense existantes basées sur des règles évaluent uniquement la forme et l'exactitude des réponses, sans refléter les améliorations qualitatives du CoT (Council of Thinking). Pour résoudre ce problème, DRER conçoit des signaux de récompense et d'avantage qui prennent en compte la qualité et la durée du processus de raisonnement. Plus précisément, il offre des récompenses fines pour les processus de raisonnement qui augmentent la probabilité d'obtenir des réponses correctes et réduisent l'avantage des réponses qui s'écartent de la longueur optimale, stabilisant ainsi l'apprentissage. De plus, nous publions Logictree, un jeu de données de raisonnement déductif construit dynamiquement, pouvant servir à la fois de données d'entraînement RL et de référence complète. Les résultats expérimentaux montrent que DRER atteint des performances de niveau GPT-o3-mini sur Logictree avec seulement 400 itérations d'entraînement avec un modèle 7B, améliorant ainsi le niveau de confiance moyen des réponses basées sur le CoT de 30 %. Il démontre également les performances de généralisation sur divers ensembles de données de raisonnement logique et sur le benchmark mathématique AIME24.