Sign In

GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

Created by
  • Haebom
Category
Empty

저자

Kaichen Zhang, Yuzhong Hong, Junwei Bao, Hongfei Jiang, Yang Song, Dingqian Hong, Hui Xiong

GVPO: 그룹 분산 정책 최적화

개요

GVPO는 특정 작업 및 인간 선호도에 맞게 대규모 언어 모델을 개선하고 정렬하는 데 중요한 역할을 하는 사후 훈련 기법입니다. GRPO와 같은 기존 기법이 우수한 성능을 달성했지만, 훈련 불안정성으로 인해 실용적인 적용에 제한이 있었습니다. GVPO는 KL-제약 보상 최대화에 대한 분석적 솔루션을 기울기 가중치에 직접 통합하여 최적 정책과의 정렬을 보장합니다. GVPO는 암시적 보상의 중심 거리와 실제 보상의 중심 거리 간의 평균 제곱 오차를 반영하는 직관적인 물리적 해석을 제공합니다.

시사점, 한계점

GVPO는 KL-제약 보상 최대화 목표와 정확히 일치하는 고유한 최적 솔루션을 보장합니다.
GVPO는 온-정책 및 중요도 샘플링 제한을 피하는 유연한 샘플링 분포를 지원합니다.
GVPO는 이론적 보장과 실용적 적응성을 결합하여 안정적이고 다재다능한 LLM 사후 훈련을 위한 새로운 패러다임을 제시합니다.
논문 자체에서는 한계점에 대한 언급이 없음.
👍