본 논문은 강화학습 알고리즘인 GRPO(Group Policy Optimisation)의 선호도 집계 방식을 분석합니다. GRPO는 DeepSeek-R1-Zero 및 DeepSeekMath와 같은 고급 AI 모델을 훈련하는 데 사용되며, 보상 선호도 모델을 이용하여 정책을 학습합니다. 이 모델은 주어진 상황에 대한 여러 출력의 보상을 샘플링하고, shift-and-scale 정규화를 적용하여 계산됩니다. 또한, 기준 정책으로부터의 편차를 억제하기 위한 패널티 함수를 포함합니다. 본 논문은 GRPO 알고리즘의 정상 상태 정책을 특성화하는 프레임워크를 제시하고, 이 분석을 통해 GRPO의 선호도 집계가 RLHF와 같은 다른 접근 방식에서 사용되는 표준 로그 합산과 근본적으로 다르다는 것을 밝힙니다. 특히, 그룹 크기가 2인 경우 보상 선호도 모델이 쌍대 비교 선호도와 일치하며, 이항 질문, 그룹 크기 2, 그리고 큰 그룹 크기의 한계에서 집계 선호도에 대한 명시적인 특성을 제공합니다. 마지막으로, 패널티로 직접 KL 발산을 사용하거나 척도 정규화 없이 보상을 사용하도록 GRPO 알고리즘을 수정하여 얻은 선호도 집계에 대해 논의합니다.