본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 강화 학습(RL)의 한계점을 해결하고자, 기존의 온-폴리시 강화 학습 기법들의 비효율적인 컴퓨팅 비용 문제를 해결하는 오프-폴리시 강화 학습 기법인 ReMix를 제안한다. ReMix는 PPO 및 GRPO와 같은 온-폴리시 RFT 방법을 활용하여 오프-폴리시 데이터를 활용할 수 있도록 설계되었으며, Mix-policy proximal policy gradient, KL-Convex policy constraint, Policy reincarnation의 세 가지 주요 구성 요소로 이루어져 있다. 실험 결과, ReMix는 다양한 수학 추론 벤치마크에서 최첨단 성능을 달성하면서 기존 방법 대비 30배에서 450배까지 훈련 비용을 절감하는 것을 보여준다. 또한, 오프-폴리시 불일치의 Whipping Effect로 인한 짧은 응답 선호 현상, 심각한 오프-폴리시 상황에서의 자기 반성 행동 붕괴 모드 등의 통찰력 있는 분석 결과도 제시한다.