본 논문은 사전 훈련된 생성 모델을 강화 학습(RL)으로 미세 조정하여 복잡한 인간의 선호도에 맞추는 효과적인 방법을 제시합니다. 특히, 그룹 상대 정책 최적화(GRPO)를 사용하여 차세대 시각적 자기회귀(VAR) 모델을 미세 조정하는 데 초점을 맞추고 있습니다. 실험 결과, 미적 예측기와 CLIP 임베딩으로부터 얻은 복잡한 보상 신호에 대한 정렬을 가능하게 하여 이미지 품질을 크게 향상시키고 생성 스타일을 정밀하게 제어할 수 있음을 보여줍니다. CLIP을 활용함으로써 VAR 모델이 초기 ImageNet 분포를 넘어 일반화할 수 있도록 돕고, RL 기반 탐색을 통해 사전 훈련 중에 없었던 이미지 스타일을 참조하는 프롬프트에 맞춰 이미지를 생성할 수 있습니다. 결론적으로, RL 기반 미세 조정은 VAR 모델에 효율적이고 효과적이며, 특히 빠른 추론 속도로 인해 온라인 샘플링에 유리하여 확산 기반 대안보다 유리함을 보여줍니다.