Cet article présente une nouvelle méthode permettant d'améliorer la capacité de résolution de problèmes complexes des modèles linguistiques à grande échelle (MLE) grâce à l'apprentissage par renforcement. L'apprentissage par renforcement conventionnel nécessite des signaux de récompense vérifiables, souvent coûteux et peu pratiques dans tous les domaines. Cette étude démontre que les LLE peuvent exploiter l'asymétrie entre génération et validation pour s'auto-évaluer et s'améliorer sans solution de référence. En implémentant l'auto-évaluation à l'aide d'énigmes à compte à rebours et de problèmes d'intégration, nous obtenons des performances comparables aux méthodes de validation conventionnelles. Plus précisément, le modèle Qwen 2.5 7B DeepSeek Distilled entraîné avec l'auto-récompense a obtenu des performances comparables à celles obtenues lors du concours MIT Integration Bee. En combinant la génération de problèmes synthétiques, nous établissons une boucle d'auto-amélioration complète où le modèle génère, résout et évalue les problèmes de manière autonome. Cela démontre que l'apprentissage par renforcement peut être appliqué à de nombreux domaines auparavant limités par la difficulté de conception de récompenses. Cela représente une avancée significative vers des systèmes d'IA autonomes qui s'améliorent continuellement grâce à l'apprentissage autodirigé sans intervention humaine.