Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Created by
  • Haebom

저자

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

개요

본 논문은 강화학습 기반 검증 가능한 보상 학습(RLVR)에서 언어 모델의 추론 능력 향상을 위한 두 가지 중요한 요소인 깊이(Depth)와 폭(Breadth)을 분석합니다. 기존 GRPO 알고리즘의 한계점으로 중간 정확도의 샘플에 대한 가중치가 과도하게 높고, 추론 능력 향상에 중요한 저정확도 샘플의 가중치는 낮다는 점을 지적합니다. 이를 해결하기 위해 어려운 문제에 대한 다단계 롤아웃을 통해 가중치를 재조정하는 Difficulty Adaptive Rollout Sampling (DARS) 기법을 제안합니다. 또한, 배치 크기를 크게 늘리고 PPO의 미니 배치 반복 대신 여러 에폭에 걸쳐 전체 배치 업데이트를 사용하여 학습 데이터의 폭을 확장하는 방법을 제시합니다. 마지막으로 DARS와 대규모 배치 크기를 결합한 DARS-B를 제안하고, 깊이와 폭이 RLVR에서 상호 독립적으로 추론 성능 향상에 기여함을 실험적으로 증명합니다.

시사점, 한계점

시사점:
GRPO 알고리즘의 한계점인 깊이(Depth)와 폭(Breadth)의 중요성을 밝힘.
어려운 문제에 대한 탐색을 증가시키는 DARS 기법을 통해 RLVR의 추론 성능 향상.
대규모 배치 크기를 활용한 폭(Breadth) 확장을 통한 추가적인 성능 향상.
DARS-B를 통해 깊이와 폭을 동시에 개선하여 Pass@K와 Pass@1 성능 모두 향상.
RLVR에서 깊이와 폭이 상호 독립적으로 작용한다는 것을 실험적으로 증명.
한계점:
제안된 방법의 효과는 특정 RLVR 설정 및 데이터셋에 국한될 수 있음.
대규모 배치 크기 사용으로 인한 계산 비용 증가.
더욱 다양한 문제 유형과 데이터셋에 대한 추가적인 실험이 필요함.
👍