# GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

### 저자

Xiangxiang Chu, Hailang Huang, Xiao Zhang, Fei Wei, Yong Wang

### 개요

본 논문은 기존의 강화학습(Reinforcement Learning, RL) 방식의 한계를 극복하고, 대규모 언어 모델의 추론 능력을 향상시키는 새로운 방법인 그룹 정책 경사(Group Policy Gradient, GPG)를 제안합니다.  GPG는 기존 정책 경사(Policy Gradient, PG) 메커니즘을 재검토하여 대리 손실 함수(surrogate loss functions) 없이 RL 목적 함수를 직접 최적화합니다.  평가자(critic)와 참조 모델(reference models)을 제거하고 KL 발산 제약(KL divergence constraints)을 피하며, 이점(advantage)과 경사 추정 편향(gradient estimation bias) 문제를 해결함으로써, Group Relative Policy Optimization (GRPO)와 비교하여 훈련 과정을 크게 단순화합니다.  다양한 단일 모드 및 다중 모드 작업에서 GPG가 GRPO보다 성능이 우수하며, 계산 비용도 줄이는 것을 실험을 통해 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - 대규모 언어 모델의 추론 능력 향상을 위한 효율적이고 간편한 강화학습 방법 제시.

    - 기존 RL 방법의 복잡성을 줄이고 성능을 개선.

    - 계산 비용 절감.

    - 다양한 작업(단일 모드 및 다중 모드)에서 우수한 성능을 보임.

    - 오픈소스 코드 공개를 통한 접근성 향상.

- **한계점:**

    - 제시된 방법의 일반화 성능에 대한 추가적인 검증 필요.

    - 다양한 규모의 언어 모델에 대한 적용 가능성 및 성능 평가 필요.

    - 특정 작업에 대한 최적화된 하이퍼파라미터 설정에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2504.02546)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
