Sign In

From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Muzhi Dai, Jiashuo Sun, Zhiyuan Zhao, Shixuan Liu, Rui Li, Junyu Gao, Xuelong Li

개요

본 논문은 대규모 비전-언어 모델(LVLMs)을 인간의 선호도에 맞추는 과정에서 고품질의 다중 모드 선호도 데이터 부족 문제를 해결하기 위해 CAREVL이라는 새로운 방법을 제안합니다. CAREVL은 고신뢰도 및 저신뢰도 데이터를 모두 활용하여 선호도 보상 모델링을 수행합니다. 먼저, 보조 전문가 모델 클러스터(텍스트 보상 모델)를 이용하여 이미지 캡션을 약한 감독 신호로 활용하여 고신뢰도 데이터를 필터링하고, 이를 통해 LVLM을 미세 조정합니다. 둘째, 저신뢰도 데이터를 사용하여 미세 조정된 LVLM으로 다양한 선호도 샘플을 생성하고, 이를 점수 매기고 선택하여 신뢰할 수 있는 선택-거부 쌍을 구성하여 추가 학습에 활용합니다. VL-RewardBench와 MLLM-as-a-Judge 벤치마크에서 기존 증류 기반 방법보다 성능 향상을 달성하여 효과를 입증합니다. 코드는 곧 공개될 예정입니다.

시사점, 한계점

시사점:
고신뢰도 및 저신뢰도 데이터를 모두 효과적으로 활용하여 LVLMs의 인간 선호도 정렬 성능을 향상시켰습니다.
이미지 캡션을 약한 감독 신호로 활용하는 독창적인 방법을 제시했습니다.
VL-RewardBench와 MLLM-as-a-Judge 벤치마크에서 기존 방법보다 우수한 성능을 보였습니다.
한계점:
코드가 아직 공개되지 않았습니다.
제안된 방법의 일반화 성능에 대한 추가적인 실험이 필요합니다.
다양한 유형의 LVLMs에 대한 적용 가능성 및 성능 평가가 추가적으로 필요합니다.
👍