본 논문은 대규모 언어 모델(LLM)을 활용한 희귀 질환의 표현형 기반 유전자 우선순위 결정의 어려움을 다룹니다. 기존 연구들은 HPO(Human Phenotype Ontology) 용어를 사용하여 GPT, LLaMA와 같은 기반 모델을 프롬프트하여 후보 유전자를 예측했지만, 실제 임상 환경에서는 비표준화된 임상 기록을 처리해야 하는 어려움이 있습니다. 본 연구는 Chain-of-Thought(CoT)와 Retrieval Augmented Generation(RAG)을 결합한 두 가지 방법, RAG-driven CoT와 CoT-driven RAG를 제시하여 임상 기록 분석을 수행합니다. 5가지 질문으로 구성된 CoT 프로토콜은 전문가의 추론 과정을 모방하며, RAG는 HPO 및 OMIM과 같은 데이터 소스에서 정보를 검색합니다. Phenopacket, 문헌, 필라델피아 아동병원의 임상 기록 등 다양한 희귀 질환 데이터셋을 사용하여 Llama 3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B 등 최신 기반 모델과 기존 모델(Llama 2, GPT-3.5)의 성능을 비교 평가하였습니다. 그 결과 최신 기반 모델과 RAG 기반 방법들이 임상 기록으로부터 후보 유전자 우선순위 결정에서 우수한 성능을 보였으며, 특히 DeepSeek 기반 모델을 사용한 두 방법 모두 Phenopacket 기반 임상 기록에서 상위 10개 유전자 정확도 40% 이상을 달성했습니다. RAG-driven CoT는 고품질 기록에, CoT-driven RAG는 길고 잡음이 많은 기록에 유리한 것으로 나타났습니다.