본 논문은 의료 영역에서 점차 중요해지고 있는 대규모 비전 언어 모델(LVLMs)의 환각(hallucination) 문제를 해결하기 위해 새로운 벤치마크 MedHEval을 제시합니다. MedHEval은 의료 LVLMs의 환각을 시각적 오류 해석, 지식 부족, 문맥 불일치의 세 가지 근본 원인으로 분류하여 체계적으로 평가합니다. 다양한 의료 VQA 데이터셋과 포괄적인 평가 지표를 사용하여 11개의 인기 (Med)-LVLMs와 7개의 최첨단 환각 완화 기술을 실험적으로 평가합니다. 실험 결과, 기존의 완화 방법은 지식 및 문맥 기반 오류에 대해 효과가 제한적이며, 다양한 원인에서 발생하는 환각에 Med-LVLMs가 어려움을 겪는다는 것을 보여줍니다. 따라서 MedHEval은 더욱 신뢰할 수 있는 Med-LVLMs 개발을 위한 표준화된 프레임워크를 제공합니다.