본 논문은 복잡한 추론 작업에서 제한된 탐색, 낮은 샘플 효율성, 불안정성 문제를 겪는 Group Relative Policy Optimization (GRPO) 알고리즘의 성능 향상을 위해 EFRame 프레임워크를 제시합니다. EFRame은 고품질 궤적을 탐색하기 위한 추가 롤아웃, 노이즈와 분산을 유발하는 저품질 샘플을 제거하기 위한 온라인 필터링, 그리고 드물지만 유익한 샘플을 반복적으로 활용하기 위한 경험 재현을 통해 GRPO를 체계적으로 개선합니다. 다양한 추론 벤치마크 실험을 통해 EFRame이 훈련의 강건성과 효율성을 향상시킬 뿐만 아니라, 기존 GRPO에서는 달성할 수 없었던 더 깊은 추론 능력을 가능하게 함을 보여줍니다. 또한, EFRame은 훈련 샘플의 보다 세분화된 분류를 가능하게 하여, 다양한 유형의 샘플이 강화 학습 과정에 어떻게 기여하는지에 대한 심층적인 분석을 가능하게 합니다.