대규모 임상 데이터의 수동 분석을 통한 질병 상호 연결 식별의 어려움과 머신러닝(ML)의 잠재력에도 불구하고, 최적의 방법 선택, 데이터 소스 결정, 'ground truth' 부족 등의 과제를 제시합니다. 이 연구는 질병 관계를 파악하기 위해 두 가지 데이터 소스(MIMIC-IV EHR의 ICD-10 코드 시퀀스 및 ICD-10 코드 전체)를 기반으로 7가지 접근 방식을 체계적으로 평가합니다. 평가에는 통계적 동시 발생 분석, 마스크 언어 모델링(MLM), 도메인 특화 BERT 변형, 일반 목적 BERT, 문서 검색, 그리고 4개의 LLM이 포함됩니다. 얻어진 상호 연결 행렬의 그래프 기반 비교 결과, LLM 기반 접근 방식이 다른 방법(텍스트 기반, 도메인 기반)보다 낮은 ICD 코드 연결 다양성을 보이며, LLM의 새로운 상호 연결 발견의 제한점을 시사합니다. 연구 결과는 향후 임상 연구 및 의료 분야의 인공 지능 응용을 위한 기초 자료로 활용될 수 있는 가치 있는 질병 온톨로지를 제공합니다.