Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Created by

Haebom

저자

Gengsheng Li, Tianyu Yang, Junfeng Fang, Mingyang Song, Mao Zheng, Haiyun Guo, Dan Zhang, Jinqiao Wang, Tat-Seng Chua

💡 개요

본 논문은 대규모 언어 모델의 사후 학습에 사용되는 강화학습 방식인 RLVR에서 발생하는 GRPO의 거친 신용 할당 문제와 SDPO의 불안정성 문제를 해결하기 위해 Sample-Routed Policy Optimization (SRPO)이라는 새로운 통합 프레임워크를 제안합니다. SRPO는 올바른 샘플은 GRPO의 보상 기반 강화 학습으로, 실패한 샘플은 SDPO의 로그 릿 수준 교정으로 라우팅하며, 엔트로피 기반 동적 가중치 메커니즘을 통해 신뢰할 수 있는 증류 대상을 강조합니다.

🔑 시사점 및 한계

•

GRPO와 SDPO의 장점을 통합하여 초기 학습 속도와 장기 학습 안정성을 동시에 달성합니다.

•

기존 방법론 대비 향상된 성능과 효율성을 보여주며, 특히 Qwen3-8B 모델에서 벤치마크 평균 성능을 크게 향상시켰습니다.

•

엔트로피 기반 동적 가중치 메커니즘은 증류 신호의 신뢰도를 효과적으로 관리합니다.

•

제안된 SRPO 프레임워크의 일반화 가능성 및 다양한 모델 아키텍처에서의 성능 검증이 필요합니다.

PDF 보기

Made with Slashpage