Fast and Effective On-policy Distillation from Reasoning Prefixes

Created by

Haebom

저자

Dongxu Zhang, Zhichao Yang, Sepehr Janghorbani, Jun Han, Andrew Ressler II, Qian Qian, Gregory D. Lyng, Sanjit Singh Batra, Robert E. Tillman

💡 개요

본 논문은 토큰 수준의 지도 학습을 통해 학생 모델의 궤적을 지도하는 온-폴리시 증류(OPD)의 훈련 비용 문제를 해결하고자 합니다. 특히, 훈련 신호가 출력의 접두사에 집중된다는 관찰에 기반하여, 학생이 생성한 출력의 접두사에만 증류 목표를 적용하고 샘플링을 조기에 종료하는 '온-폴리시 접두사 증류(on-policy prefix distillation, OPD)' 방법을 제안합니다. 이를 통해 AI for Math 및 도메인 외 벤치마크에서 전체 OPD와 동등한 성능을 달성하면서도 훈련 FLOP을 2배에서 47배까지 줄이는 성과를 거두었습니다.

🔑 시사점 및 한계

•

효율적인 온-폴리시 증류: 제안된 방법은 전체 궤적 대신 접두사만을 활용하여 훈련 효율성을 크게 향상시키면서도 기존 OPD의 성능을 유지합니다.

•

데이터 효율성 개선: 긴 응답 생성 시 발생하는 높은 훈련 비용을 절감함으로써, 더 적은 계산 자원으로도 효과적인 모델 학습이 가능해집니다.

•

접두사 정보의 중요성: 긴 응답 생성에서도 초기 접두사가 학생 모델의 학습에 결정적인 역할을 한다는 것을 실험적으로 입증합니다.

•

접두사 길이 최적화: 접두사의 최적 길이에 대한 추가적인 연구가 필요하며, 이 길이가 모델의 성능과 효율성에 미치는 영향을 더 깊이 탐구할 필요가 있습니다.

PDF 보기

Made with Slashpage