본 논문은 규칙 기반 강화학습(RL)이 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시키지만, 그 메커니즘은 불분명하다는 점을 지적합니다. 소규모 SFT(Supervised Fine-Tuning)가 RL에 상당한 영향을 미치지만 효율성이 낮다는 점을 발견하고, 이를 설명하기 위해 분석적 프레임워크를 제안합니다. SFT와 RL의 효율성을 샘플 효과를 측정하여 비교 분석하고, SFT 효율성 향상 가능성을 제시합니다. 이 분석을 바탕으로 RL 학습된 정책에서 샘플링하여 소규모 증류의 효과를 높이는 '재증류(Re-distillation)' 기법을 제안합니다. 세 가지 데이터셋과 Qwen&Llama 모델에서 재증류 모델이 훨씬 적은 샘플과 계산으로 RL 성능에 도달하는 놀라운 효율성을 보였으며, K&K 데이터셋에서는 재증류된 Qwen-2.5-1.5B 모델이 1K SFT 샘플만으로 DeepSeek-V3-0324를 능가했습니다. 또한, 재증류를 사용하여 RL에서 여러 목표를 효율적으로 균형 있게 조정할 수 있음을 보여주며, R1 스타일 RL의 몇 가지 흥미로운 현상을 설명하여 경험적 성공의 메커니즘을 밝힙니다.