SFT 후 RL을 따르는 2단계 미세 조정 방식이 LLM의 추론 성능을 향상시킨다는 것은 경험적으로 입증되었지만, SFT와 RL의 시너지 효과에 대한 메커니즘은 불분명하다. 본 연구에서는 "SFT는 기억하고, RL은 일반화한다"는 주장이 단순화되었다는 점을 발견했다. SFT는 OOD 성능이 초기에 최고조에 달한 후 감소하고, RL은 근본적으로 OOD 능력을 향상시키기보다는 SFT 과정에서 손실된 추론 능력을 'OOD 복원'하는 역할을 한다. SFT가 너무 짧거나 너무 오래 훈련되면 RL은 손실된 OOD 능력을 복원할 수 없으며, 특이값 분해(SVD) 분석을 통해 파라미터 행렬의 회전이 OOD 동작과 강하게 연관되어 있음을 발견했다.