Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
개요
본 논문은 대규모 비전-언어 모델(VLMs)이 시각적 기반 작업에서 오류와 환각을 일으키는 원인이 세밀한 이미지 세부 사항에 정확하게 근거한 텍스트 생성을 명시적으로 학습하지 않기 때문이라고 가정합니다. 이를 해결하기 위해, 세밀한 이미지 디테일을 포착하고 해당 텍스트 토큰과 정렬하도록 모델을 유도하는 새로운 미세 조정 목표인 S-VCO(Symmetrical Visual Contrastive Optimization)를 제안합니다. 또한, 최소 시각적 대조(MVC)를 포함하는 어려운 대조적 사례로 모델에 도전하기 위해 시각적 반실증 데이터를 자동으로 필터링하고 증강하여 생성한 MVC라는 쌍으로 이루어진 이미지-텍스트 데이터셋을 소개합니다. 실험 결과, S-VCO는 다양한 벤치마크에서 VLM 성능을 일관되게 향상시켜 환각을 최대 22%까지 줄이고 시각 중심 및 일반 작업에서 상당한 성능 향상을 달성했습니다. 특히, 시각적 의존성이 높은 벤치마크에서 이러한 개선이 더욱 두드러집니다. 결론적으로 S-VCO는 모델의 일반적인 능력을 유지하거나 개선하면서 VLM의 시각 의존적 작업 성능을 크게 향상시킵니다. 코드는 https://s-vco.github.io/ 에서 공개됩니다.