Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HEDGE: Hallucination Estimation via Dense Geometric Entropy for VQA with Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Sushant Gautam, Michael A. Riegler, P{\aa}l Halvorsen

개요

비전-언어 모델(VLMs)의 환각 문제를 해결하기 위해, 시각적 교란, 의미론적 클러스터링, 강력한 불확실성 지표를 결합한 통합 프레임워크인 HEDGE를 제시합니다. 이 프레임워크는 샘플링, 왜곡 합성, 클러스터링(함의 기반 및 임베딩 기반), 메트릭 계산을 포함하는 재현 가능한 파이프라인으로, 다양한 멀티모달 아키텍처에 적용 가능합니다. VQA-RAD 및 KvasirVQA-x1 데이터셋과 세 가지 대표적인 VLM(LLaVA-Med, Med-Gemma, Qwen2.5-VL)에 대한 평가를 통해 아키텍처 및 프롬프트에 따른 경향성을 파악했습니다.

시사점, 한계점

시사점:
HEDGE는 환각 감지를 위한 체계적인 프레임워크를 제공합니다.
다양한 VLM 아키텍처 및 프롬프트 설계에 따른 환각 감지 성능 변화를 분석합니다.
VASE 메트릭과 임베딩 클러스터링의 조합이 가장 강력한 환각 신호를 제공합니다.
간결한 레이블 스타일의 출력이 더 명확한 의미 구조를 제공합니다.
HEDGE-bench PyPI 라이브러리를 통해 재현 가능하고 확장 가능한 벤치마킹 환경을 제공합니다.
한계점:
논문에서 구체적인 한계점 언급은 없습니다.
👍