Sign In

Rethinking GSPO: The Perplexity-Entropy Equivalence

Created by
  • Haebom
Category
Empty

저자

Chi Liu

개요

GSPO의 길이 정규화된 중요도 비율에 대한 새로운 관점을 제시하며, 이를 정보 이론적 양과 연결합니다. GSPO의 시퀀스 레벨 가중치 $s(\theta) = (\pi_\theta/\pi_{\theta_{\text{old}}})^{1/|y|}$가 역 혼란도 비율 $\text{PPL}{\theta{\text{old}}}/\text{PPL}_\theta$ 및 지수 교차 엔트로피 변화 $\exp(\Delta H)$와 동등하게 표현될 수 있음을 보입니다. 이 관점은 GSPO가 정책 경사 업데이트를 혼란도 비율로 가중하며, 중요도 가중치에 대한 정보 이론적 해석을 제공함을 보여줍니다. 또한 기하 평균을 통한 로그 도메인 분산 감소 및 전문가 혼합 모델 학습의 안정성을 포함한 GSPO의 경험적 특성을 설명하는 데 도움이 됩니다. 수학적 동등성과 분산 예측은 수학적 추론 과제에 대한 제어된 실험을 통해 검증되었습니다.

시사점, 한계점

GSPO의 중요도 가중치에 대한 정보 이론적 관점 제시
혼란도 비율을 통한 정책 경사 업데이트 가중
기하 평균을 통한 로그 도메인 분산 감소 및 전문가 혼합 모델 학습의 안정성 설명
수학적 추론 과제에 대한 실험을 통해 검증
구체적인 한계점은 논문에 명시되어 있지 않음
👍