Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language Models

Created by
  • Haebom

저자

Jihoon Lee, Min Song

개요

본 논문은 대규모 비전-언어 모델에서 지속적인 문제로 남아있는 객체 환각(Object Hallucination, OH)을 해결하기 위해, 추가적인 모델 훈련 없이 기존의 대조적 디코딩 연구를 기반으로 개선된 방법인 RVCD(Retrieval Visual Contrastive Decoding)를 제안합니다. RVCD는 로짓 수준에서 음성 이미지와 양성 이미지를 활용하여, 단일 개념을 나타내도록 설계된 AI 생성 이미지를 명시적으로 참조합니다. 제안된 방법은 기존의 디코딩 기반 방법들보다 상당한 성능 향상을 보여줍니다.

시사점, 한계점

시사점:
추가적인 모델 훈련 없이 객체 환각 문제를 효과적으로 해결할 수 있는 새로운 디코딩 방법 제시.
로짓 수준에서 음성 및 양성 이미지를 활용하여 기존 방법보다 성능 향상 달성.
AI 생성 이미지를 활용하여 개념 표현을 명시적으로 고려.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 실험 필요.
다양한 유형의 객체 환각에 대한 로버스트성 평가 필요.
AI 생성 이미지의 품질에 대한 의존성 고려.
👍