본 논문은 인간 피드백으로부터의 강화 학습(RLHF)에서 효율적인 그룹 상대 정책 최적화(GRPO) 기반 훈련을 가속화하는 방법을 제안합니다. 초기 정책 모델의 보상 분산을 증가시켜 RLHF 훈련 속도를 높이는 방법을 제시하며, 비볼록 최적화 문제를 해결하기 위해 O(n log n) 알고리즘을 설계하여 전역 해를 찾습니다. 이를 GRPO 알고리즘에 통합하여 보상 분산 증가를 포함한 효율적인 GRPO (GRPOVI) 알고리즘을 제시하고, 실험 결과를 통해 GRPOVI 알고리즘이 기존 GRPO 알고리즘에 비해 RLHF 훈련 효율을 크게 향상시킨다는 것을 보여줍니다. 특히, 규칙 기반 보상을 사용하는 GRPO의 효과에 대한 간접적인 설명을 제공합니다.