Dans cet article, nous soulignons les limites de l'apprentissage par renforcement traditionnel pour améliorer la capacité d'inférence multi-niveaux des modèles d'inférence de langage à grande échelle (LLM) grâce à l'apprentissage par renforcement (RL). Nous proposons une nouvelle méthode, l'augmentation des questions (QuestA), pour résoudre ces limites. QuestA réduit la difficulté du problème en ajoutant des solutions partielles lors de l'apprentissage par renforcement, fournissant ainsi des signaux d'entraînement plus informatifs. Lorsque QuestA est appliqué lors de l'apprentissage par renforcement pour des tâches d'inférence mathématique, les performances Pass@1 et Pass@k sont améliorées, en particulier pour les problèmes où l'apprentissage par renforcement traditionnel présente des difficultés. En améliorant encore la capacité d'inférence de puissants modèles open source tels que DeepScaleR et OpenMath Nemotron, nous obtenons de nouveaux résultats de pointe (respectivement 67,1 %, 59,5 % et 35,5 %) sur les benchmarks AIME24, AIME25 et HMMT25. De plus, nous fournissons une explication théorique expliquant pourquoi QuestA améliore l'efficacité de l'échantillonnage, suggérant une méthode pratique et généralisable pour étendre la capacité d'inférence via RL.