Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

Created by
  • Haebom

저자

Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 활용하는 방법을 제시합니다. 기존 RL 기반 LLM 학습은 고품질 샘플에 의존하지만, LLM 자체의 한계로 인해 이러한 샘플 탐색이 제한되는 문제가 있습니다. 이를 해결하기 위해, 본 논문은 Rubric-Scaffolded Reinforcement Learning (RuscaRL)이라는 새로운 프레임워크를 제안합니다. RuscaRL은 체크리스트 형식의 루브릭을 활용하여, 롤아웃 생성 단계에서 다양한 고품질 응답을 유도하고, 모델 학습 단계에서 루브릭을 기준으로 신뢰할 수 있는 보상을 제공합니다. 결과적으로, 다양한 벤치마크에서 기존 방법보다 우수한 성능을 보이며, 특히 HealthBench-500에서 Qwen2.5-7B-Instruct의 성능을 23.6에서 50.3으로, Qwen3-30B-A3B-Instruct의 성능을 61.1로 향상시켜 GPT-4.1 및 OpenAI-o3를 능가하는 결과를 얻었습니다.

시사점, 한계점

시사점:
체크리스트 형식의 루브릭을 활용한 강화학습 프레임워크(RuscaRL)를 통해 LLM의 추론 능력을 효과적으로 향상시킬 수 있음을 보여줌.
다양한 벤치마크에서 SOTA 성능 달성. 특히 HealthBench-500에서 GPT-4.1을 능가하는 성능을 기록.
루브릭 기반의 탐색 및 보상 전략은 LLM의 추론 능력 향상에 효과적인 방법론 제시.
한계점:
현재 연구가 진행 중이며, 코드, 모델, 데이터셋 공개는 추후 진행 예정.
루브릭 설계의 질에 따라 성능이 크게 영향을 받을 수 있음. 루브릭 설계에 대한 자세한 설명과 가이드라인이 부족.
다양한 유형의 추론 문제에 대한 일반화 성능 평가가 부족.
👍