OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning

작성자

Haebom

카테고리

Empty

저자

Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

💡 개요

본 연구는 언어 모델의 추론 능력을 향상시키기 위한 on-policy self-distillation(OPSD) 기법의 훈련 불안정성 문제를 해결하고자 합니다. 제안된 OGLS-SD 프레임워크는 검증 가능한 결과 보상을 활용하여 학습된 로짓을 지도하며, 이를 통해 성공적인 궤적과 실패한 궤적에서 유도된 로짓을 구분하여 토큰 수준의 지도 방향을 설정합니다. 실험 결과, OGLS-SD는 OPSD의 훈련을 안정화시키고 성능을 개선하는 것으로 나타났습니다.

🔑 시사점 및 한계

•

On-policy self-distillation에서 발생하는 훈련 불안정성 및 패턴 불일치 문제를 효과적으로 완화할 수 있습니다.

•

검증 가능한 결과 보상을 이용한 로짓 제어 방식이 언어 모델의 추론 능력을 향상시키는 데 기여할 수 있습니다.

•

수학적 추론 벤치마크에서 제안된 방법론의 우수성을 입증했습니다.

•

제안된 방법론의 일반화 가능성 및 다른 종류의 추론 작업에 대한 적용 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage