Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding
Created by
Haebom
Category
Empty
저자
Jiaming Li, Jiacheng Zhang, Zequn Jie, Lin Ma, Guanbin Li
개요
대규모 비전-언어 모델(LVLMs)은 다운스트림 다중 모드 작업을 위한 시각-언어 이해에 놀라운 능력을 보여주었습니다. 하지만 복잡한 생성 작업에서 환각을 생성하는 문제가 여전히 존재하며, 이는 시각적 입력과 생성된 콘텐츠 간의 불일치로 이어집니다. 본 논문은 훈련 없이 LVLMs의 환각을 완화하기 위해 모드 간 상관 관계 보정 디코딩(IMCCD) 방법을 제안합니다. IMCCD는 새로운 대조 디코딩 메커니즘을 통해 환각을 완화하는 교차 모드 값 향상 디코딩(CMVED) 모듈과 교차 모드 어텐션 가중치를 개선하여 LVLMs가 중요한 시각적 콘텐츠에 집중하도록 안내하는 콘텐츠 기반 어텐션 개선(CDAR) 모듈로 구성됩니다. 다양한 환각 벤치마크에 대한 실험 결과는 제안된 방법이 기존 최첨단 기술보다 LVLMs의 텍스트 생성에서 환각을 줄이는 데 우수함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
훈련 없이 LVLMs의 환각 문제를 해결하는 새로운 방법(IMCCD) 제시.
◦
CMVED 및 CDAR 모듈을 통해 단일 모드 과의존 및 오해되는 모드 간 상관관계 문제 해결.