# On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

### 저자

Xueyan Niu, Bo Bai, Wei Han, Weixi Zhang

### 💡 개요

본 논문은 대규모 언어 모델의 후처리 과정에서 흔히 사용되는 지도 학습 미세조정(SFT)과 강화 학습(RL)이 이론적으로 분리될 수 없음을 증명합니다. SFT는 교차 엔트로피 손실을 최소화하고 RL은 보상 신호를 최대화하는 상반된 목표를 가짐에도 불구하고, 두 학습 방식은 서로의 성능을 저해할 수 있음을 이론적 분석과 실험을 통해 보여줍니다. 특히, RL은 SFT 손실을 증가시키고 SFT는 RL 보상을 감소시킬 수 있으며, 이를 균형 맞추는 최적의 RL 학습 기간을 제시합니다.

### 🔑 시사점 및 한계

- SFT와 RL은 서로 다른 목표를 가짐에도 불구하고, 후처리 과정에서 단독으로 사용되거나 순서가 바뀌어도 기존 성능을 유지하며 분리될 수 없습니다.

- RL 학습 시간을 최적화하여 SFT 성능 저하를 최소화하고 RL 보상 개선을 극대화하는 절충점을 찾을 수 있습니다.

- 본 연구는 이론적 분석과 제한된 실험(Qwen3-0.6B)에 기반하므로, 더 다양한 모델 아키텍처 및 데이터셋에 대한 검증이 필요하며, 실제 적용 시 발생할 수 있는 다양한 실제적 제약을 고려한 추가 연구가 요구됩니다.

---

[PDF 보기](https://arxiv.org/pdf/2601.07389)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).