본 논문은 규칙 기반 강화 학습(RL)을 사용하여 언어 모델(LM)의 추론 능력을 향상시키는 최근 연구에 대한 불안정성 문제를 해결하기 위해 Clipped Policy Gradient Optimization with Policy Drift (CPGD) 알고리즘을 제안합니다. 기존 RL 방법들(GRPO, REINFORCE++, RLOO 등)은 큰 정책 업데이트와 부적절한 클리핑으로 인해 훈련이 실패하는 문제가 있는데, CPGD는 KL divergence 기반의 정책 변화 제약 조건을 도입하여 정책 업데이트를 동적으로 규제하고, 로그 비율에 대한 클리핑 메커니즘을 활용하여 과도한 정책 업데이트를 방지합니다. 이론적 근거와 실험적 분석을 통해 CPGD가 기존 방법들의 불안정성을 완화하고 성능을 향상시키는 것을 보여줍니다. 코드는 https://github.com/ModalMinds/MM-EUREKA 에서 공개됩니다.