본 논문은 대규모 비전-언어 모델(LVLMs)을 인간의 선호도에 맞추는 과정에서 고품질의 다중 모드 선호도 데이터 부족 문제를 해결하기 위해 CAREVL이라는 새로운 방법을 제안합니다. CAREVL은 고신뢰도 및 저신뢰도 데이터를 모두 활용하여 선호도 보상 모델링을 수행합니다. 먼저, 보조 전문가 모델 클러스터(텍스트 보상 모델)를 이용하여 이미지 캡션을 약한 감독 신호로 활용하여 고신뢰도 데이터를 필터링하고, 이를 통해 LVLM을 미세 조정합니다. 둘째, 저신뢰도 데이터를 사용하여 미세 조정된 LVLM으로 다양한 선호도 샘플을 생성하고, 이를 점수 매기고 선택하여 신뢰할 수 있는 선택-거부 쌍을 구성하여 추가 학습에 활용합니다. VL-RewardBench와 MLLM-as-a-Judge 벤치마크에서 기존 증류 기반 방법보다 성능 향상을 달성하여 효과를 입증합니다. 코드는 곧 공개될 예정입니다.