소득 수준이 낮은 국가의 소아 패혈증 환자 데이터(2,686건, 28개의 수치형 변수와 119개의 범주형 변수)를 사용하여, 대규모 언어 모델(LLM) 기반 군집화를 기존 방법과 비교 평가한 연구입니다. 환자 기록은 텍스트로 변환되었고, quantized LLAMA 3.1 8B, DeepSeek-R1-Distill-Llama-8B with LoRA, Stella-En-400M-V5 모델을 사용하여 임베딩을 생성했습니다. K-means 군집화를 적용하였고, 기존 방법으로는 UMAP 및 FAMD를 사용한 K-Medoids 군집화를 비교했습니다. Silhouette score와 통계적 검정을 통해 군집의 질과 차별성을 평가한 결과, Stella-En-400M-V5 모델이 가장 높은 Silhouette Score (0.86)를 달성했습니다. 군집 목표를 포함한 LLAMA 3.1 8B는 더 많은 군집 수에서 더 나은 성능을 보였으며, 영양, 임상, 사회경제적 특성이 다른 하위 집단을 식별했습니다. LLM 기반 방법은 풍부한 맥락을 포착하고 주요 특징을 우선시함으로써 기존 기법보다 우수한 성능을 보였습니다. 이는 자원이 제한된 환경에서의 맥락적 표현형 분석 및 정보에 입각한 의사결정에 LLM의 잠재력을 보여줍니다.