본 논문은 대규모 비전-언어 모델에서 지속적인 문제로 남아있는 객체 환각(Object Hallucination, OH)을 해결하기 위해, 추가적인 모델 훈련 없이 기존의 대조적 디코딩 연구를 기반으로 개선된 방법인 RVCD(Retrieval Visual Contrastive Decoding)를 제안합니다. RVCD는 로그릿 수준에서 음성 및 양성 이미지를 활용하여, 단일 개념을 나타내도록 설계된 AI 생성 이미지를 명시적으로 참조합니다. 기존의 디코딩 기반 방법들에 비해 상당한 성능 향상을 보입니다.