본 연구는 MIMIC-IV 데이터셋을 사용하여 8개의 대규모 언어 모델(LLM)의 임상 진단 요약 분류 성능을 평가했습니다. 4개의 추론형 LLM (Qwen QWQ, Deepseek Reasoner, GPT-o3 Mini, Gemini 2.0 Flash Thinking)과 4개의 비추론형 LLM (Llama 3.3, GPT-4o Mini, Gemini 2.0 Flash, Deepseek Chat)을 비교 분석하였습니다. cTAKES를 사용하여 임상 기록을 구조화하고, 세 번의 실험을 통해 다수결 투표로 최종 예측을 결정했습니다. 그 결과, 추론형 모델이 비추론형 모델보다 정확도(71% vs 68%)와 F1 점수(67% vs 60%)에서 더 나은 성능을 보였으며, Gemini 2.0 Flash Thinking이 가장 높은 정확도(75%)와 F1 점수(76%)를 달성했습니다. 그러나 비추론형 모델은 더 높은 안정성(91% vs 84%)을 보였습니다. 성능은 ICD-10 코드에 따라 다양하게 나타났으며, 추론형 모델은 복잡한 경우에 뛰어났지만 추상적인 범주에서는 어려움을 겪었습니다. 결과적으로 정확도와 안정성 사이의 절충이 존재함을 시사하며, 하이브리드 접근 방식이 임상 코딩을 최적화할 수 있음을 제시합니다.