Dans cet article, nous présentons le framework EFRame, qui améliore l'optimisation de politique relative de groupe (GRPO), un algorithme efficace d'apprentissage par renforcement. Il permet de résoudre les problèmes d'exploration limitée, de faible efficacité des échantillons et d'instabilité qui entravent les performances des tâches d'inférence complexes. EFRame intègre systématiquement trois éléments clés : l'exploration, le filtrage et la relecture d'expérience pour une exploration de trajectoire de haute qualité, la suppression des échantillons de faible qualité et l'utilisation itérative d'échantillons rares mais informatifs. Cela crée un cycle d'apprentissage stable et structure le processus de transition de l'exploration à la convergence, améliorant ainsi la capacité d'inférence du modèle. Grâce à diverses expériences de benchmarking d'inférence, nous démontrons qu'EFRame améliore non seulement la robustesse et l'efficacité de l'apprentissage, mais offre également des capacités d'inférence approfondies impossibles à atteindre avec le GRPO conventionnel. De plus, il fournit des informations approfondies sur la contribution de chaque échantillon grâce à une classification fine des échantillons d'apprentissage, et fournit un mécanisme de contrôle d'entropie efficace et précis, essentiel pour équilibrer exploration et convergence.