본 논문은 강화학습(RL)을 이용하여 사전 훈련된 생성 모델을 미세 조정하는 방법으로, 특히 Group Relative Policy Optimization (GRPO)를 차세대 시각적 자기회귀(VAR) 모델에 적용하는 연구를 다룹니다. 미적 예측기와 CLIP 임베딩에서 도출된 복잡한 보상 신호에 대한 정렬을 통해 이미지 품질을 향상시키고 생성 스타일을 정밀하게 제어할 수 있음을 실험적으로 보여줍니다. 특히 CLIP을 활용하여 사전 훈련 중에 존재하지 않았던 이미지 스타일을 참조하는 프롬프트에도 맞춰 이미지를 생성하는 등, ImageNet 분포를 넘어 일반화하는 능력을 향상시킬 수 있음을 확인했습니다. 빠른 추론 속도를 가진 VAR 모델의 특성을 활용하여 온라인 샘플링에 유리하며, 이는 확산 기반 모델과 차별화되는 강점입니다.