MedHallBench는 의료 대규모 언어 모델(MLLM)의 환각(의학적으로 비현실적이거나 부정확한 정보 생성) 문제를 평가하고 완화하기 위한 포괄적인 벤치마크 프레임워크입니다. 전문가 검증 의료 사례 시나리오와 기존 의료 데이터베이스를 통합하여 강력한 평가 데이터셋을 생성하고, 자동화된 ACHMI 점수와 엄격한 임상 전문가 평가를 결합한 정교한 측정 시스템을 사용합니다. 의료 애플리케이션을 위해 특별히 설계된 강화 학습 기반 인간 피드백(RLHF) 학습 파이프라인을 통해 다양한 임상 환경에서 MLLM을 철저히 평가하고 정확성 기준을 유지합니다. 다양한 모델을 대상으로 비교 실험을 수행하여 널리 채택된 대규모 언어 모델(LLM)의 기준선을 설정했습니다. ACHMI는 기존 지표보다 환각의 영향에 대한 더욱 세부적인 이해를 제공하여 환각 평가에서의 장점을 강조합니다. 이 연구는 의료 환경에서 MLLM의 신뢰성 향상을 위한 기초 프레임워크를 구축하고 의료 애플리케이션에서 AI 환각의 중대한 과제를 해결하기 위한 실행 가능한 전략을 제시합니다.