본 논문은 강화학습(Reinforcement Learning, RL)을 사용하여 대규모 언어 모델(Large Language Model, LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 강화학습 미세조정(Reinforcement Finetuning, RFT) 방법들의 주요 한계점인 온-폴리시(on-policy) 학습의 높은 계산 비용 및 시간 문제를 해결하기 위해, 오프-폴리시(off-policy) 데이터를 활용하는 새로운 방법인 ReMix(Reincarnating Mix-policy Proximal Policy Gradient)를 제안합니다. ReMix는 믹스-폴리시 근사 정책 경사(Mix-policy proximal policy gradient), KL-볼록 정책 제약(KL-Convex policy constraint), 정책 환생(Policy reincarnation)의 세 가지 주요 구성 요소로 이루어져 있으며, PPO 및 GRPO와 같은 기존 온-폴리시 RFT 방법들을 오프-폴리시 데이터를 활용하도록 확장합니다. 실험 결과, ReMix는 다섯 가지 수학 추론 벤치마크(AIME'24, AMC'23, Minerva, OlympiadBench, MATH500)에서 기존 최첨단 모델들보다 훨씬 적은 훈련 비용(최대 450배 감소)으로 최고 성능을 달성했습니다. 또한, 오프-폴리시 불일치의 채찍 효과(Whipping Effect)로 인한 짧은 응답 선호 현상, 심각한 오프-폴리시 상황에서의 자기 반성 행동 붕괴 모드 등의 통찰력 있는 결과를 제시합니다.