Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Integrating Chain-of-Thought and Retrieval Augmented Generation Enhances Rare Disease Diagnosis from Clinical Notes

Created by
  • Haebom
Category
Empty

저자

Da Wu, Zhanliang Wang, Quan Nguyen, Kai Wang

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 희귀 질환의 표현형 기반 유전자 우선순위 결정의 어려움을 다룹니다. 기존 연구들은 HPO(Human Phenotype Ontology) 용어를 사용하여 GPT, LLaMA와 같은 기반 모델을 프롬프트하여 후보 유전자를 예측했지만, 실제 임상 환경에서는 비표준화된 임상 기록을 처리해야 하는 어려움이 있습니다. 본 연구는 Chain-of-Thought(CoT)와 Retrieval Augmented Generation(RAG)을 결합한 두 가지 방법, RAG-driven CoT와 CoT-driven RAG를 제시하여 임상 기록 분석을 수행합니다. 5가지 질문으로 구성된 CoT 프로토콜은 전문가의 추론 과정을 모방하며, RAG는 HPO 및 OMIM과 같은 데이터 소스에서 정보를 검색합니다. Phenopacket, 문헌, 필라델피아 아동병원의 임상 기록 등 다양한 희귀 질환 데이터셋을 사용하여 Llama 3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B 등 최신 기반 모델과 기존 모델(Llama 2, GPT-3.5)의 성능을 비교 평가하였습니다. 그 결과 최신 기반 모델과 RAG 기반 방법들이 임상 기록으로부터 후보 유전자 우선순위 결정에서 우수한 성능을 보였으며, 특히 DeepSeek 기반 모델을 사용한 두 방법 모두 Phenopacket 기반 임상 기록에서 상위 10개 유전자 정확도 40% 이상을 달성했습니다. RAG-driven CoT는 고품질 기록에, CoT-driven RAG는 길고 잡음이 많은 기록에 유리한 것으로 나타났습니다.

시사점, 한계점

시사점:
최신 LLM(Llama 3.3-70B-Instruct, DeepSeek-R1-Distill-Llama-70B)이 기존 LLM(Llama 2, GPT-3.5)보다 희귀 질환 유전자 예측 성능이 우수함을 보임.
RAG-driven CoT와 CoT-driven RAG 방법이 LLM 단독 사용보다 임상 기록 기반 유전자 우선순위 결정 성능이 뛰어남을 확인.
데이터 품질에 따라 RAG-driven CoT와 CoT-driven RAG의 적용 전략을 달리할 수 있음을 제시. (고품질 기록에는 RAG-driven CoT, 잡음이 많은 기록에는 CoT-driven RAG)
DeepSeek 기반 모델을 사용한 RAG 기반 방법들이 40% 이상의 상위 10개 유전자 정확도를 달성하여 임상 활용 가능성을 시사.
한계점:
본 연구에서 사용된 데이터셋의 규모 및 다양성에 대한 명확한 언급 부족.
다양한 유형의 희귀 질환에 대한 일반화 가능성에 대한 추가 연구 필요.
임상 현장 적용을 위한 추가적인 검증 및 실제 임상 의사의 피드백 필요.
RAG에 사용된 데이터 소스의 품질 및 완전성에 대한 고려 필요.
👍