Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

작성자

Haebom

카테고리

Empty

저자

Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji

💡 개요

본 연구는 대규모 언어 모델의 강화학습 기반 추론 능력 향상 시 발생하는 높은 계산 비용 문제를 해결하고자 합니다. 이를 위해, 논문은 공유된 최적화 이력을 기반으로 경량 생성 모델을 학습시켜 프롬프트 난이도를 추론하는 일반화 가능한 예측 프롬프트 선택(GPS) 기법을 제안합니다. GPS는 중간 난이도 우선순위화와 이력 기반 다양성 확보를 통해 효율적인 프롬프트 배치 선택을 수행하며, 실험 결과 학습 효율성, 최종 성능, 테스트 시간 효율성 측면에서 우수한 성능을 보입니다.

🔑 시사점 및 한계

•

대규모 언어 모델의 강화학습 훈련 효율성을 획기적으로 개선할 수 있는 일반화 가능한 예측 프롬프트 선택 기법을 제시했습니다.

•

프롬프트별 모델 구축 없이도 일반화 성능을 확보하여, 다양한 추론 벤치마크에서 기존 기법 대비 뛰어난 성과를 입증했습니다.

•

제안된 GPS 기법의 일반화 능력이 실제 다양한 도메인과 작업에 얼마나 효과적으로 적용될 수 있는지 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage