비전-언어 모델(VLMs)의 환각 문제를 해결하기 위해, 시각적 교란, 의미론적 클러스터링, 강력한 불확실성 지표를 결합한 통합 프레임워크인 HEDGE를 제시합니다. 이 프레임워크는 샘플링, 왜곡 합성, 클러스터링(함의 기반 및 임베딩 기반), 메트릭 계산을 포함하는 재현 가능한 파이프라인으로, 다양한 멀티모달 아키텍처에 적용 가능합니다. VQA-RAD 및 KvasirVQA-x1 데이터셋과 세 가지 대표적인 VLM(LLaVA-Med, Med-Gemma, Qwen2.5-VL)에 대한 평가를 통해 아키텍처 및 프롬프트에 따른 경향성을 파악했습니다.