본 논문은 복잡한 추론 작업에서 성능을 저해하는 제한된 탐색, 낮은 샘플 효율성 및 불안정성 문제를 해결하기 위해, 효율적인 강화 학습 알고리즘인 GRPO(Group Relative Policy Optimization)를 개선한 EFRame 프레임워크를 제시합니다. EFRame은 탐색, 필터링, 경험 재생의 세 가지 핵심 요소를 체계적으로 통합하여 고품질 궤적 탐색, 저품질 샘플 제거, 그리고 드물지만 유익한 샘플의 반복적 활용을 수행합니다. 이를 통해 안정적인 학습 주기를 구축하고, 탐색에서 수렴까지의 전환 과정을 구조화하여 모델의 추론 능력을 향상시킵니다. 다양한 추론 벤치마크 실험 결과, EFRame은 학습의 강건성과 효율성을 향상시킬 뿐만 아니라, 기존 GRPO로는 달성할 수 없었던 심층 추론 능력까지 가능하게 함을 보여줍니다. 또한, 훈련 샘플의 세분화된 분류를 통해 각 샘플의 기여도에 대한 심층적인 통찰력을 제공하고, 탐험과 수렴의 균형을 맞추는 데 중요한 엔트로피 제어 메커니즘을 효율적이고 정밀하게 제공합니다.