Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

작성자

Haebom

카테고리

Empty

저자

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 4단계 후학습 워크플로우를 제안합니다. 이 워크플로우는 제한된 레이블 데이터를 더 효과적으로 활용하여 기존 방식보다 우수한 성능을 달성합니다. 제안된 방법론은 희소 보상 강화학습, KL 발산 워밍업, 온-폴리시 증류, 그리고 최종 학생 모델에 대한 희소 보상 강화학습을 포함합니다.

🔑 시사점 및 한계

•

핵심 시사점 1: 제안된 "희소-에서-밀집한 보상 원리" 기반 워크플로우는 LLM 추론 성능을 크게 향상시키며, 특히 수학 문제 해결에서 두드러진 성과를 보입니다.

•

핵심 시사점 2: 각 학습 단계는 모델 성능 향상에 필수적이며, 특히 강화학습으로 개선된 교사 모델과 KL 발산 워밍업이 중요한 역할을 합니다.

•

한계점 또는 향후 과제: 워크플로우의 각 단계가 부하를 감당하는지 확인하는 엄격한 실험은 이루어졌으나, 다양한 LLM 아키텍처와 더 복잡한 태스크에서의 일반화 가능성에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage