Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding

Created by
  • Haebom
Category
Empty

저자

Jiaming Li, Jiacheng Zhang, Zequn Jie, Lin Ma, Guanbin Li

개요

대규모 비전-언어 모델(LVLMs)은 다운스트림 다중 모드 작업을 위한 시각-언어 이해에 놀라운 능력을 보여주었습니다. 하지만 복잡한 생성 작업에서 환각을 생성하는 문제가 여전히 존재하며, 이는 시각적 입력과 생성된 콘텐츠 간의 불일치로 이어집니다. 본 논문은 훈련 없이 LVLMs의 환각을 완화하기 위해 모드 간 상관 관계 보정 디코딩(IMCCD) 방법을 제안합니다. IMCCD는 새로운 대조 디코딩 메커니즘을 통해 환각을 완화하는 교차 모드 값 향상 디코딩(CMVED) 모듈과 교차 모드 어텐션 가중치를 개선하여 LVLMs가 중요한 시각적 콘텐츠에 집중하도록 안내하는 콘텐츠 기반 어텐션 개선(CDAR) 모듈로 구성됩니다. 다양한 환각 벤치마크에 대한 실험 결과는 제안된 방법이 기존 최첨단 기술보다 LVLMs의 텍스트 생성에서 환각을 줄이는 데 우수함을 보여줍니다.

시사점, 한계점

시사점:
훈련 없이 LVLMs의 환각 문제를 해결하는 새로운 방법(IMCCD) 제시.
CMVED 및 CDAR 모듈을 통해 단일 모드 과의존 및 오해되는 모드 간 상관관계 문제 해결.
다양한 환각 벤치마크에서 기존 최첨단 기술보다 우수한 성능을 입증.
공개된 코드를 통해 재현성 확보.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
특정 유형의 환각에 대해서는 효과가 제한적일 수 있음.
다른 LVLMs 또는 다양한 다운스트림 작업에 대한 추가적인 실험 필요.
👍