본 논문은 안과 진단에 사용되는 의료용 대규모 언어 모델(MLLM)의 환각(hallucination) 문제를 해결하기 위해 새로운 벤치마크인 EH-Benchmark를 제안합니다. MLLM의 환각은 제한적인 안과 지식, 부족한 시각적 위치 파악 및 추론 능력, 다중 모달 안과 데이터 부족으로 인해 발생하며, 정확한 병변 탐지 및 질병 진단을 방해합니다. EH-Benchmark는 시각적 이해와 논리적 구성이라는 두 가지 주요 유형으로 MLLM의 환각을 분류하고, 지식 수준 검색, 과제 수준 사례 연구, 결과 수준 검증의 세 단계로 구성된 에이전트 중심의 프레임워크를 제시하여 환각을 완화하고 정확성, 해석 가능성, 신뢰성을 향상시킵니다. GitHub에서 공개된 프로젝트를 통해 해당 프레임워크를 활용할 수 있습니다.