본 논문은 의료 분야에서 활용되는 비전-언어 모델(VLMs)의 환각(hallucination) 문제를 해결하기 위해 대규모 벤치마크 MedHallTune을 제안합니다. MedHallTune은 10만 개 이상의 이미지와 100만 개 이상의 instruction pair로 구성되며, 환각 및 비환각 샘플 각각에 대한 정답 레이블을 포함합니다. 다양한 의료 및 일반 VLMs에 대한 종합적인 평가를 수행하여 임상 정확도, 관련성, 세부 수준, 위험 수준 등의 주요 지표를 평가합니다. MedHallTune을 사용한 미세 조정(fine-tuning)을 통해 여러 기존 모델의 환각 관리 능력을 향상시키고, 후속 시각적 질의응답(VQA) 작업에서 제로샷 성능을 향상시켜 실제 의료 응용 분야에서 더욱 신뢰할 수 있게 만드는 것을 실험적으로 보여줍니다. 코드와 데이터셋은 공개될 예정입니다.