Sign In

Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs

Created by
  • Haebom
Category
Empty

저자

Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Oriol Nieto, Zeyu Jin, Dinesh Manocha

개요

본 논문은 대규모 비전-언어 모델(LVLMs)에서 발생하는 환각(hallucination) 현상의 근본 원인을 조사하고, 이를 해결하기 위한 새로운 방법을 제시합니다. 기존의 환각 완화 기술은 시각적 요소에 대한 단순한 설명을 요구하는 시각 인식 프롬프트에는 효과적이지만, 심도있는 추론을 필요로 하는 인지적 프롬프트에는 효과가 떨어진다는 것을 발견했습니다. 이는 LVLMs이 시각 요소를 정확하게 인식할 수 있지만, 입력 프롬프트의 맥락에서 이러한 요소를 완전히 해석하고 내부 지식과 효과적으로 연결하는 데 어려움을 겪기 때문이라고 분석합니다. 이러한 문제를 해결하기 위해, 이미지에 대한 상세한 설명을 생성하여 프롬프트 앞에 추가하는 Visual Description Grounded Decoding (VDGD) 방법을 제안합니다. VDGD는 설명과의 KL divergence를 기반으로 토큰을 샘플링하여, divergence가 낮은 후보를 선호합니다. 다양한 시각적 추론 벤치마크와 LVLMs에 대한 실험 결과, VDGD는 기존 기준 모델보다 2%~33% 향상된 성능을 보였습니다. 마지막으로, LVLMs의 인지 능력을 포괄적으로 평가하기 위한 VaLLu 벤치마크를 제시합니다.

시사점, 한계점

시사점:
LVLMs의 환각 현상 원인을 심층적으로 분석하여, 시각적 인식과 추론 능력 간의 연관성을 밝힘.
기존 방법의 한계를 극복하는 새로운 환각 완화 기법인 VDGD 제안.
VDGD의 효과를 다양한 벤치마크와 LVLMs에서 검증.
LVLMs의 인지 능력 평가를 위한 새로운 벤치마크 VaLLu 제시.
한계점:
VDGD의 성능 향상이 벤치마크에 따라 차이가 있을 수 있음. (2%~33%의 범위)
VaLLu 벤치마크의 범용성 및 신뢰성에 대한 추가 검증 필요.
VDGD가 모든 유형의 환각을 완벽하게 해결한다는 보장은 없음.
VDGD가 training-free이지만, 이미지 설명 생성 모듈의 성능에 의존적일 수 있음.
👍