본 논문은 희귀 질환, 특히 선천성 대사 이상(IEM) 진단의 어려움을 해결하기 위해 사례 보고서를 활용하는 방법을 제시합니다. 사례 보고서에서 의학 정보를 구조화된 범주로 정리하는 밀집 정보 추출(Clinical dense information extraction)에 초점을 맞춰, 대규모 언어 모델(LLM)의 활용 가능성을 평가했습니다. 이를 위해 전문가가 주석을 단 IEM 사례 보고서 데이터셋인 CaseReportBench를 제작하고, 다양한 모델과 프롬프팅 전략(범주별 프롬프팅, 소제목 필터링 데이터 통합 등)의 성능을 비교 분석했습니다. 그 결과, Qwen2.5-7B 모델이 GPT-4o를 능가하는 성능을 보였으며, 임상의 평가를 통해 LLM이 사례 보고서에서 임상적으로 중요한 정보를 추출하여 희귀 질환 진단 및 관리에 도움을 줄 수 있음을 확인했습니다. 하지만, 감별 진단에 중요한 음성 소견 인식에는 한계가 있음을 지적했습니다.