본 논문은 의료 지식 추출, 진단, 요약 등에 사용되는 대규모 언어 모델(LLM) 개발에 크게 기여하는 의료 벤치마크 데이터셋의 한계점을 지적하며, 실제 의료 현장의 복잡성을 반영한 새로운 데이터셋 CUPCase를 제시합니다. CUPCase는 BMC의 3,562개 실제 환자 사례 보고서를 기반으로 하며, 개방형 텍스트 형식과 다지선다형 옵션으로 진단 정보를 제공합니다. 논문에서는 GPT-4o를 포함한 최신 LLM들을 CUPCase를 이용하여 평가하고, 부분적인 정보만으로도 진단 성능을 유지하는 GPT-4o의 우수성을 보여줍니다. 특히 GPT-4o는 다지선다형 과제에서 87.9%의 정확도, 개방형 텍스트 과제에서 0.764의 BERTScore F1 점수를 달성하여, 의료 전문 LLM인 Meditron-70B 및 MedLM-Large를 능가하는 성능을 보였습니다. 또한, 사례 발표의 처음 20% 토큰만 사용하더라도 성능 저하가 미미함을 확인했습니다. CUPCase는 개방적이고 재현 가능한 방식으로 임상 의사 결정 지원을 위한 LLM 평가 능력을 확장합니다.