Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

작성자

Haebom

카테고리

Empty

저자

Zhicheng Yang, Zhijiang Guo, Yifan Song, Minrui Xu, Yongxin Wang, Yiwei Wang, Xiaodan Liang, Jing Tang

💡 개요

본 논문은 긴 시간 추론 작업에서 온-폴리시 증류(OPD)의 효율성 문제를 해결하기 위해 Prune-OPD라는 새로운 프레임워크를 제안합니다. Prune-OPD는 학생 모델의 예측이 교사 모델의 사고 과정에서 벗어나는 '접두사 드리프트'를 실시간으로 감지하고, 드리프트가 심할 경우 신뢰할 수 없는 보상을 줄이며 동적으로 롤아웃을 중단하여 계산 자원을 신뢰할 수 있는 감독에 집중시킵니다. 이로써 계산 효율성을 높이고 성능을 유지하거나 향상시킵니다.

🔑 시사점 및 한계

•

효율적인 자원 할당: Prune-OPD는 학습 예산과 감독 품질을 동적으로 일치시켜, 계산 자원을 신뢰할 수 있는 교사 감독에 효율적으로 재할당함으로써 불필요한 계산 낭비를 줄입니다.

•

성능 향상 및 유지: 접두사 드리프트가 발생할 경우 훈련 시간을 37.6%~68.0%까지 단축시키면서도, 복잡한 벤치마크에서 성능을 유지하거나 오히려 향상시키는 결과를 보여줍니다.

•

동적 훈련 창 조절: 학생-교사 모델 간 호환성이 높을 때는 훈련 창을 확장하여 장기적인 감독을 자동으로 유지함으로써, 단순히 롤아웃 길이를 줄이는 것이 아니라 국소적으로 활용 가능한 교사 보상에 계산을 재집중시키는 방식으로 OPD를 개선합니다.

•

드리프트 감지 정확성 및 일반화: 다양한 교사-학생 조합에 걸쳐 Prune-OPD의 효과가 입증되었지만, 접두사 드리프트 감지 메커니즘의 정확성과 다양한 작업 및 모델 아키텍처에 대한 일반화 가능성은 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage