본 논문은 시각적 생성 모델의 사후 훈련 향상을 위한 강화 학습에서 효과적인 보상 모델링의 중요성을 강조합니다. 기존 방법들은 많은 양의 사람이 주석한 선호도 데이터 또는 세심하게 설계된 품질 차원에 의존하여 구현 복잡성이 높다는 한계를 지닙니다. 본 논문에서는 GAN(Generative Adversarial Networks)의 적대적 훈련에서 영감을 얻어, 수동 선호도 주석 및 명시적 품질 차원 설계를 없앤 효율적인 보상 모델링 프레임워크인 GAN-RM을 제안합니다. GAN-RM은 소량의 대표적인 비짝 데이터(Preference Proxy Data)와 모델이 생성한 일반적인 출력 간의 판별을 통해 보상 모델을 훈련하며, 수백 개의 목표 샘플만 필요합니다. 다양한 실험을 통해 Best-of-N 샘플 필터링, SFT(Supervised Fine-Tuning), DPO(Direct Preference Optimization) 등 여러 주요 애플리케이션에서 GAN-RM의 효과를 입증합니다. 코드와 데이터는 https://github.com/Visualignment/GAN-RM 에서 공개될 예정입니다.