Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Created by
  • Haebom

저자

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

Reinforcement Learning with Verifiable Reward: Depth and Breadth

개요

본 논문은 RLVR (Reinforcement Learning with Verifiable Reward)의 한계를 극복하기 위해 Depth(어려운 문제 샘플링)와 Breadth(단일 반복에서 사용되는 인스턴스 수)라는 두 가지 미탐구된 측면에 초점을 맞춘다. GRPO 알고리즘의 편향성을 분석하고, Depth 무시 문제를 해결하기 위해 Difficulty Adaptive Rollout Sampling (DARS)을 제안한다. 또한, 훈련 데이터의 Breadth를 확장하여 성능 향상을 이끌어낸다. DARS와 Breadth를 결합한 DARS-B를 통해 Pass@K와 Pass@1에서 동시적인 향상을 보여준다.

시사점, 한계점

시사점:
DARS를 통해 어려운 문제에 대한 샘플링을 개선하여 성능 향상.
훈련 데이터의 Breadth 확장을 통해 추론 능력 향상.
DARS와 Breadth는 RLVR의 추론 능력을 향상시키는 데 중요한 두 가지 독립적인 요소임.
DARS-B를 통해 Pass@K와 Pass@1 모두에서 개선.
한계점:
GRPO 알고리즘의 편향성 분석에 기반하고 있음.
DARS 및 Breadth 확장을 위한 구체적인 구현 세부 사항은 제한적일 수 있음.
특정 알고리즘과 문제에 대한 결과일 수 있으며, 일반화 가능성에 대한 추가 연구가 필요함.
👍