본 연구는 언어 모델의 추론 능력을 향상시키기 위한 on-policy self-distillation(OPSD) 기법의 훈련 불안정성 문제를 해결하고자 합니다. 제안된 OGLS-SD 프레임워크는 검증 가능한 결과 보상을 활용하여 학습된 로짓을 지도하며, 이를 통해 성공적인 궤적과 실패한 궤적에서 유도된 로짓을 구분하여 토큰 수준의 지도 방향을 설정합니다. 실험 결과, OGLS-SD는 OPSD의 훈련을 안정화시키고 성능을 개선하는 것으로 나타났습니다.