GSPO의 길이 정규화된 중요도 비율에 대한 새로운 관점을 제시하며, 이를 정보 이론적 양과 연결합니다. GSPO의 시퀀스 레벨 가중치 $s(\theta) = (\pi_\theta/\pi_{\theta_{\text{old}}})^{1/|y|}$가 역 혼란도 비율 $\text{PPL}{\theta{\text{old}}}/\text{PPL}_\theta$ 및 지수 교차 엔트로피 변화 $\exp(\Delta H)$와 동등하게 표현될 수 있음을 보입니다. 이 관점은 GSPO가 정책 경사 업데이트를 혼란도 비율로 가중하며, 중요도 가중치에 대한 정보 이론적 해석을 제공함을 보여줍니다. 또한 기하 평균을 통한 로그 도메인 분산 감소 및 전문가 혼합 모델 학습의 안정성을 포함한 GSPO의 경험적 특성을 설명하는 데 도움이 됩니다. 수학적 동등성과 분산 예측은 수학적 추론 과제에 대한 제어된 실험을 통해 검증되었습니다.