본 논문은 강화 학습 기반의 대규모 언어 모델(LLM) 미세 조정에서 보상 모델의 부정확성 문제를 해결하기 위한 새로운 방법인 PF-PPO(Policy Filtration for Proximal Policy Optimization)를 제안합니다. PF-PPO는 보상 모델의 신뢰성이 낮은 샘플들을 필터링하여 정책 학습 과정의 신호 대 잡음비를 향상시키는 기법입니다. 적절한 정책 필터링 전략을 선택하기 위해, 필터링된 샘플들의 보상과 실제 점수 간의 결정 계수(R²)를 지표로 사용합니다. 코드 생성 및 수학 추론 과제에 대한 광범위한 실험을 통해 PF-PPO의 효과를 검증하였으며, 기존 최고 성능을 능가하는 결과를 얻었습니다. 특히, 새롭게 제작한 LeetCode Contest 벤치마크에서 괄목할 만한 성능 향상을 보였습니다.