본 논문은 인간의 의도에 부합하는 다중 모달 대규모 언어 모델(MLLM)을 훈련하는 데 있어 기존의 점수 기반 보상 모델의 정확도, 일반화 능력, 해석력 저하 문제를 해결하기 위해, 생성적 보상 모델(GRM)을 다중 모달 강화 학습(RLHF)과 통합한 새로운 정렬 프레임워크인 Generative RLHF-V를 제시합니다. Generative RLHF-V는 강화 학습을 통해 GRM이 인간의 의도를 적극적으로 포착하고 쌍별 점수를 예측하는 다중 모달 생성적 보상 모델링 단계와, 그룹 비교를 통해 다중 모달 RL 점수 정확도를 향상시키는 RL 최적화 단계의 두 단계 파이프라인으로 구성됩니다. 실험 결과, Generative RLHF-V는 기존 RLHF 대비 7개 벤치마크에서 4개의 MLLM 성능을 18.1% 향상시키는 반면, 기준 RLHF는 5.3%만 향상시키는 것으로 나타났습니다. 또한, 후보 응답 수가 증가함에 따라 거의 선형적으로 성능이 향상되는 것을 확인했습니다.