SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

작성자

Haebom

카테고리

Empty

저자

Binbin Zheng, Xing Ma, Yiheng Liang, Jingqing Ruan, Xiaoliang Fu, Kepeng Lin, Benchang Zhu, Ke Zeng, Xunliang Cai

💡 개요

본 논문은 대규모 언어 모델의 온-폴리시 강화 학습에서 발생하는 토큰 수준의 어려운 신용 할당 문제를 해결하기 위해 SCOPE(Signal-Calibrated On-Policy Distillation Enhancement)라는 새로운 프레임워크를 제안합니다. SCOPE는 듀얼 패스 적응형 가중치 부여 방식을 통해 롤아웃의 정확도에 따라 감독 경로를 분리하고, 각 경로에서 교사 모델의 강점과 학생 모델의 약점을 효과적으로 활용하여 학습 효율성을 높입니다. 이를 통해 다양한 추론 벤치마크에서 경쟁력 있는 기반 모델 대비 평균 11.42%의 Avg@32 및 7.30%의 Pass@32 향상을 달성했습니다.

🔑 시사점 및 한계

•

온-폴리시 강화 학습에서 롤아웃의 정확성에 따라 감독 신호를 동적으로 조정하는 것이 학습 효율성을 크게 향상시킬 수 있음을 보여줍니다.

•

교사 모델의 신뢰도와 학생 모델의 불확실성을 모두 고려한 듀얼 패스 적응형 가중치 부여 방식이 효과적인 토큰 수준 신용 할당을 가능하게 합니다.

•

본 연구는 프롬프트별 난이도 편차를 고려한 그룹 수준 정규화를 통해 다양한 종류의 추론 작업에 대한 모델의 일반화 성능을 높일 수 있습니다.

•

향후 연구에서는 SCOPE를 다른 종류의 강화 학습 설정이나 모델 아키텍처에 확장 적용하는 방안을 탐색할 필요가 있습니다.

PDF 보기

Made with Slashpage