본 논문은 수학 및 코드 데이터셋을 사용하여 추론을 위한 거대 언어 모델(LLM)의 사후 훈련에 대한 두 가지 주요 접근 방식인 강화 학습(RL)과 감독식 미세 조정(SFT)의 훈련 역학을 비교 분석합니다. 같은 수학 문제, 모델, 유사한 하이퍼파라미터를 사용하여 RL과 SFT를 비교 분석한 결과, RL은 수학 문제에서 약간의 도메인 내 성능 향상을 보였으나 MMLU와 같은 지식 집약적 벤치마크에서는 약간의 성능 저하를 보였습니다. SFT는 두 경향 모두 더 두드러졌습니다. 모델 파라미터 분석 결과, 두 알고리즘 모두 쿼리 및 키 가중치를 가장 많이 수정했으며, SFT는 더 큰 업데이트를 보였고 중간 계층 MLP에도 더 큰 영향을 미쳤는데, 이는 도메인 외 성능 저하의 원인일 수 있다는 가설을 세웠습니다. 따라서 훈련 중 모델의 일부를 고정하여 지식 집약적 벤치마크에서의 성능 저하를 완화할 수 있는지 조사했으나, GPQA:Diamond에서의 성능 향상과 다른 벤치마크에서의 성능 저하가 나타나 결론적이지 못했습니다. 결론적으로 RL은 기존 기능을 증폭시키는 반면, SFT는 기존 기술을 새로운 기술로 대체한다는 초기적인 징후를 제시합니다.