본 논문은 강화학습 기반 검증 가능한 보상 학습(RLVR)에서 언어 모델의 추론 능력 향상을 위한 두 가지 중요한 요소인 깊이(Depth)와 폭(Breadth)을 분석합니다. 기존 GRPO 알고리즘의 한계점으로 중간 정확도의 샘플에 대한 가중치가 과도하게 높고, 추론 능력 향상에 중요한 저정확도 샘플의 가중치는 낮다는 점을 지적합니다. 이를 해결하기 위해 어려운 문제에 대한 다단계 롤아웃을 통해 가중치를 재조정하는 Difficulty Adaptive Rollout Sampling (DARS) 기법을 제안합니다. 또한, 배치 크기를 크게 늘리고 PPO의 미니 배치 반복 대신 여러 에폭에 걸쳐 전체 배치 업데이트를 사용하여 학습 데이터의 폭을 확장하는 방법을 제시합니다. 마지막으로 DARS와 대규모 배치 크기를 결합한 DARS-B를 제안하고, 깊이와 폭이 RLVR에서 상호 독립적으로 추론 성능 향상에 기여함을 실험적으로 증명합니다.
시사점, 한계점
•
시사점:
◦
GRPO 알고리즘의 한계점인 깊이(Depth)와 폭(Breadth)의 중요성을 밝힘.
◦
어려운 문제에 대한 탐색을 증가시키는 DARS 기법을 통해 RLVR의 추론 성능 향상.
◦
대규모 배치 크기를 활용한 폭(Breadth) 확장을 통한 추가적인 성능 향상.
◦
DARS-B를 통해 깊이와 폭을 동시에 개선하여 Pass@K와 Pass@1 성능 모두 향상.