Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
Created by
Haebom
저자
Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Kongcheng Zhang, Jiale Zhao, Jingwen Yang, Yihe Zhou, Jianwei Lv, Tongya Zheng, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song
RuscaRL: Rubric-Scaffolded Reinforcement Learning for LLM Reasoning
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 개발된 Rubric-Scaffolded Reinforcement Learning (RuscaRL) 프레임워크를 제안합니다. RuscaRL은 LLM의 탐색 한계를 극복하기 위해 체크리스트 스타일의 루브릭을 활용하여, 탐색 과정에서 다양한 고품질 샘플을 생성하도록 유도하고, 훈련 과정에서 루브릭을 기반으로 한 견고한 보상을 제공합니다. 실험 결과, RuscaRL은 다양한 벤치마크에서 기존 LLM을 능가하는 성능을 보였으며, 특히 HealthBench-500에서 Qwen2.5-7B-Instruct의 성능을 크게 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
RuscaRL은 LLM의 추론 능력 향상을 위한 새로운 프레임워크를 제시하며, 탐색-학습의 악순환을 해결합니다.
◦
체크리스트 스타일 루브릭을 활용하여 고품질 샘플 생성 및 효과적인 RL 학습을 가능하게 합니다.
◦
다양한 벤치마크에서 기존 LLM을 능가하는 우수한 성능을 입증했습니다.
◦
오픈 소스 모델(Qwen)의 성능을 획기적으로 향상시켜 LLM 연구의 접근성을 높였습니다.