CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models
Created by
Haebom
저자
Zhihang Lin, Mingbao Lin, Yuan Xie, Rongrong Ji
개요
본 논문은 Group Relative Policy Optimization (GRPO) 기반 추론 모델 학습 속도를 높이기 위한 Completion Pruning Policy Optimization (CPPO)을 제안합니다. GRPO는 효과적이지만 각 질문에 대해 여러 완성(completion)을 샘플링해야 하므로 높은 학습 비용이 발생합니다. 본 논문은 이러한 완성의 수가 모델 정확도에 영향을 미치지만 학습 시간을 배수적으로 증가시키며, 모든 완성이 정책 학습에 동등하게 기여하는 것은 아니라는 점을 실험 및 이론적 분석을 통해 밝힙니다. 따라서 CPPO는 낮은 절대적 이점을 가진 완성을 제거하여 기울기 계산 및 업데이트에 필요한 완성의 수를 크게 줄입니다. 또한 추가 질문을 통합하여 GPU 활용도를 극대화하는 동적 완성 할당 전략을 도입하여 학습 효율을 더욱 향상시킵니다. 실험 결과, CPPO는 GSM8K에서 최대 8.32배, Math에서 3.51배의 속도 향상을 달성하면서 원래 GRPO와 비교하여 정확도를 유지하거나 향상시켰습니다. 소스 코드는 https://github.com/lzhxmu/CPPO 에서 공개됩니다.