Reinforcement Learning with Verifiable Reward: Depth and Breadth
개요
본 논문은 RLVR (Reinforcement Learning with Verifiable Reward)의 한계를 극복하기 위해 Depth(어려운 문제 샘플링)와 Breadth(단일 반복에서 사용되는 인스턴스 수)라는 두 가지 미탐구된 측면에 초점을 맞춘다. GRPO 알고리즘의 편향성을 분석하고, Depth 무시 문제를 해결하기 위해 Difficulty Adaptive Rollout Sampling (DARS)을 제안한다. 또한, 훈련 데이터의 Breadth를 확장하여 성능 향상을 이끌어낸다. DARS와 Breadth를 결합한 DARS-B를 통해 Pass@K와 Pass@1에서 동시적인 향상을 보여준다.
시사점, 한계점
•
시사점:
◦
DARS를 통해 어려운 문제에 대한 샘플링을 개선하여 성능 향상.
◦
훈련 데이터의 Breadth 확장을 통해 추론 능력 향상.
◦
DARS와 Breadth는 RLVR의 추론 능력을 향상시키는 데 중요한 두 가지 독립적인 요소임.
◦
DARS-B를 통해 Pass@K와 Pass@1 모두에서 개선.
•
한계점:
◦
GRPO 알고리즘의 편향성 분석에 기반하고 있음.
◦
DARS 및 Breadth 확장을 위한 구체적인 구현 세부 사항은 제한적일 수 있음.
◦
특정 알고리즘과 문제에 대한 결과일 수 있으며, 일반화 가능성에 대한 추가 연구가 필요함.