Cet article analyse la profondeur et l'étendue, deux facteurs clés pour améliorer les performances d'inférence des modèles de langage dans l'apprentissage par récompense vérifiable basé sur l'apprentissage par renforcement (RLVR). Nous soulignons que l'algorithme GRPO existant, avec son Limitations, surpondère les échantillons de précision moyenne et sous-pondère les échantillons de faible précision, ce qui est crucial pour améliorer les performances d'inférence. Pour remédier à ce problème, nous proposons l'échantillonnage adaptatif à la difficulté (DARS), une technique qui rééquilibre les pondérations par des déploiements en plusieurs étapes sur des problèmes difficiles. De plus, nous présentons une méthode pour étendre l'étendue des données d'apprentissage en augmentant significativement la taille des lots et en utilisant des mises à jour par lots complets sur plusieurs époques au lieu des itérations en mini-lots de PPO. Enfin, nous proposons DARS-B, qui combine DARS avec des lots de grande taille, et démontrons expérimentalement que la profondeur et l'étendue contribuent indépendamment à améliorer les performances d'inférence dans RLVR.