본 논문은 인간 피드백으로부터의 강화 학습(RLHF)에서 효율적인 그룹 상대 정책 최적화(GRPO) 기반 훈련을 가속화하는 방법을 제안합니다. 초기 정책 모델의 보상 분산을 증가시켜 RLHF 훈련 속도를 높이는 기존 연구 결과에 착안하여, 보상 분산을 증가시키면서 상대적 선호도와 보상 기대치를 유지하는 실용적인 보상 조정 모델을 제시합니다. 이 모델은 비볼록 최적화 문제를 제기하지만, 본 논문에서는 가능한 집합의 극점을 명시적으로 특징짓는 O(n log n) 알고리즘을 설계하여 전역 해를 찾는 방법을 제시합니다. 이 보상 조정 모델을 GRPO 알고리즘에 통합하여, 보상 분산 증가(GRPOVI) 알고리즘을 개발하고, DeepSeek-R1에서 보여진 규칙 기반 보상을 사용한 GRPO의 효과에 대한 간접적인 설명을 제공합니다. 실험 결과는 GRPOVI 알고리즘이 기존 GRPO 알고리즘에 비해 RLHF 훈련 효율을 크게 향상시킨다는 것을 보여줍니다.