본 논문은 다양한 분야에서 능력을 보여준 대규모 언어 모델(LLM)이 서술형 의료 사례를 기반으로 한 희귀 질환 진단에 대한 성능을 연구합니다. 의학 교육에서 희귀 질환 인식 교육에 사용되는 House M.D. 드라마에서 추출한 176개의 증상-진단 쌍으로 구성된 새로운 데이터셋을 사용합니다. GPT 4o mini, GPT 5 mini, Gemini 2.5 Flash, Gemini 2.5 Pro 등 4가지 최첨단 LLM을 서술형 기반 진단 추론 작업에 대해 평가했습니다.