본 논문은 검증 가능한 보상을 사용한 강화 학습(RLVR)과 지식 증류가 언어 모델의 추론 능력에 미치는 영향을 조사합니다. RLVR은 어려운 문제의 정확도를 희생하여 쉬운 문제의 정확도만 향상시키므로 추론 능력 향상에는 실패하지만, 쉬운 문제에 대한 성공 확률을 높이고 새로운 고품질 응답을 생성한다는 것을 보여줍니다. 반면 지식 증류는 새로운 지식이 도입될 때만 추론 능력을 향상시키며, 새로운 지식 없이 추론 패턴만 학습할 경우 RLVR과 유사하게 쉬운 문제의 정확도만 향상시킵니다. 이는 RLVR과 지식 증류가 언어 모델의 추론 행동을 형성하는 메커니즘에 대한 이해를 제공합니다.