Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

작성자

Haebom

카테고리

Empty

저자

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard

💡 개요

본 연구는 레이블이 지정된 학습 데이터가 제한적인 상황에서, 각 학습 데이터를 모델과 보상 밀도에 가장 효과적으로 할당하는 '희소-밀집 보상 원리'를 제안합니다. 이 원리는 탐색 능력이 뛰어난 모델에는 희소한 시퀀스 레벨 보상을, 압축 모델에는 밀집한 토큰 레벨 교사 감독을 사용하며, 이를 통해 기존 GRPO 방식보다 뛰어난 성능을 달성합니다.

🔑 시사점 및 한계

•

시사점 1: 제한된 레이블 데이터를 효율적으로 활용하기 위해, 탐색 및 발견에는 희소 보상을, 압축 및 전이에는 밀집 보상을 사용하는 단계적 접근이 효과적입니다.

•

시사점 2: 사전 학습된 교사 모델에 희소 보상을 먼저 적용하여 행동을 개선한 후, 이를 밀집 형태로 학생 모델에 전달하는 방식이 직접적인 GRPO 적용보다 더 나은 성능을 보입니다.

•

한계점 또는 향후 과제: 제안된 4단계 워크플로우의 각 단계(교사 RL, forward-KL warmup, on-policy distillation, student RL)가 모두 성능에 기여하므로, 각 단계의 최적화 및 상호작용에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage