본 논문은 대규모 추론 모델(LRM)의 복잡한 행동(다단계 추론, 자기 성찰 등)을 검증 가능한 보상을 사용한 강화 학습(RLVR)을 통해 학습하는 최근 연구에 대해 다룹니다. 기존 RLVR 접근 방식은 본질적으로 온-폴리시(on-policy) 방식이어서 모델 자체의 출력에 학습이 제한되고 초기 능력을 넘어서는 추론 능력을 습득하지 못하는 한계가 있습니다. 이를 해결하기 위해, 본 논문은 오프-폴리시(off-policy) 추론 트레이스를 RLVR에 추가하는 LUFFY(Learning to reason Under OFF-policy guidance) 프레임워크를 제시합니다. LUFFY는 학습 중에 오프-폴리시 데모와 온-폴리시 롤아웃을 결합하여 모방과 탐색 간의 균형을 동적으로 조절합니다. LUFFY는 이론적으로 수렴 속도가 보장되는 Mixed-Policy GRPO 프레임워크와 규제된 중요도 샘플링을 통한 정책 형성을 결합하여 혼합 정책 학습 중에 피상적이고 엄격한 모방을 방지합니다. 실험 결과, LUFFY는 기존 RLVR 방법에 비해 6개의 수학 벤치마크에서 평균 +6.4 이상의 성능 향상을 달성했고, 분포 외(out-of-distribution) 작업에서 +6.2점 이상의 이점을 보였습니다. 특히, 온-폴리시 RLVR이 완전히 실패하는 시나리오에서 LUFFY가 약한 모델을 성공적으로 학습시킨다는 것을 보여줍니다. 이러한 결과는 LUFFY가 온-폴리시 RLVR의 근본적인 한계를 극복하고 오프-폴리시 안내를 RLVR에 활용하는 큰 잠재력을 보여준다는 강력한 증거를 제공합니다.