Dans cet article, nous présentons le framework EFRame pour améliorer les performances de l'algorithme d'optimisation de politique relative de groupe (GRPO), qui souffre d'une exploration limitée, d'une faible efficacité d'échantillonnage et d'une instabilité dans les tâches d'inférence complexes. EFRame améliore systématiquement GRPO en introduisant des déploiements supplémentaires pour explorer les trajectoires de haute qualité, un filtrage en ligne pour éliminer les échantillons de faible qualité générateurs de bruit et de variance, et une reproductibilité empirique pour utiliser de manière répétée des échantillons rares mais informatifs. Grâce à diverses expériences de référence d'inférence, nous démontrons qu'EFRame améliore non seulement la robustesse et l'efficacité de l'apprentissage, mais offre également des capacités d'inférence plus approfondies, impossibles avec le GRPO conventionnel. De plus, EFRame permet une classification plus fine des échantillons d'apprentissage, ce qui permet une analyse plus approfondie de la contribution des différents types d'échantillons au processus d'apprentissage par renforcement.