Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence

작성자

Haebom

카테고리

Empty

저자

Xinyu Liu, Kechen Jiao, Chunyang Xiao, Runsong Zhao, Junhao Ruan, Bei Li, Jiahao Liu, Qifan Wang, Xin Chen, Jingang Wang, Chenglong Wang, Tong Xiao, JingBo Zhu

💡 개요

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 온-폴리시 증류(OPD) 기법이 정책 간 큰 차이가 있을 경우 발생하는 학습의 어려움을 해결하고자 합니다. 이를 위해 제안된 Teacher-Guided Policy Optimization (TGPO)는 역 KL(RKL) 기반의 평가 지도 방식에서 벗어나, 토큰 수준에서 교사 모델이 직접 생성 과정을 안내하고 궤적 수준의 보상과 결합하여 탐색을 개선합니다. 실험 결과, TGPO는 기존 RKL 기반 OPD 방법보다 우수한 성능을 보이며 다양한 교사 모델에서도 강건함을 입증했습니다.

🔑 시사점 및 한계

•

정책 간 차이가 큰 상황에서도 효과적으로 작동하는 온-폴리시 증류 기법을 개발했습니다.

•

토큰 수준의 직접적인 생성 지도와 궤적 수준의 강화 학습 보상을 결합하여 학습 효율성을 높였습니다.

•

다양한 교사 모델에 대해 일관된 성능 향상을 보여 범용성을 가집니다.

•

제안된 기법의 실제 적용 시 계산 복잡성 및 효율성 측면에서 추가적인 최적화가 필요할 수 있습니다.

PDF 보기

Made with Slashpage