Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models

Created by
  • Haebom

저자

Zhihang Lin, Mingbao Lin, Yuan Xie, Rongrong Ji

개요

본 논문은 Group Relative Policy Optimization (GRPO) 기반 추론 모델 학습 속도를 높이기 위한 Completion Pruning Policy Optimization (CPPO)을 제안합니다. GRPO는 효과적이지만 각 질문에 대해 여러 완성(completion)을 샘플링해야 하므로 높은 학습 비용이 발생합니다. 본 논문은 이러한 완성의 수가 모델 정확도에 영향을 미치지만 학습 시간을 배수적으로 증가시키며, 모든 완성이 정책 학습에 동등하게 기여하는 것은 아니라는 점을 실험 및 이론적 분석을 통해 밝힙니다. 따라서 CPPO는 낮은 절대적 이점을 가진 완성을 제거하여 기울기 계산 및 업데이트에 필요한 완성의 수를 크게 줄입니다. 또한 추가 질문을 통합하여 GPU 활용도를 극대화하는 동적 완성 할당 전략을 도입하여 학습 효율을 더욱 향상시킵니다. 실험 결과, CPPO는 GSM8K에서 최대 8.32배, Math에서 3.51배의 속도 향상을 달성하면서 원래 GRPO와 비교하여 정확도를 유지하거나 향상시켰습니다. 소스 코드는 https://github.com/lzhxmu/CPPO 에서 공개됩니다.

시사점, 한계점

시사점:
GRPO의 높은 학습 비용 문제를 효과적으로 해결하는 CPPO 알고리즘 제시
완성의 선택적 제거를 통해 학습 속도를 크게 향상시킴 (GSM8K에서 최대 8.32배, Math에서 3.51배)
동적 완성 할당 전략을 통해 GPU 활용도를 극대화
정확도 저하 없이 또는 오히려 향상시키면서 속도 향상 달성
소스 코드 공개를 통한 재현성 및 확장성 제공
한계점:
CPPO의 성능 향상이 특정 데이터셋 (GSM8K, Math)에 국한될 가능성
다양한 추론 모델 및 문제 유형에 대한 일반화 성능 검증 필요
동적 완성 할당 전략의 최적화 파라미터 설정에 대한 추가 연구 필요
👍