본 논문은 대규모 언어 모델(LLM)이 의료 분야에서 겪는 환각 현상에 대한 연구를 수행합니다. 특히, 실제 환자의 질문에 대한 LLM의 응답에서 발생하는 환각을 분석하고, 이를 탐지하기 위한 새로운 벤치마크(MedHalu)와 프레임워크(MedHaluDetect)를 제시합니다. 또한, 의료 전문가, LLM, 일반인 간의 환각 탐지 능력을 비교 분석하며, 전문가의 의견을 LLM 입력에 통합하는 방식을 통해 환각 탐지 능력을 향상시키는 연구 결과를 제시합니다.