Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Integrating Large Language Models with Human Expertise for Disease Detection in Electronic Health Records

Created by
  • Haebom

저자

Jie Pan, Seungwon Lee, Cheligeer Cheligeer, Elliot A. Martin, Kiarash Riazi, Hude Quan, Na Li

개요

본 연구는 캐나다 알버타주의 심장 질환 등록 코호트(2015년, 3,088명 환자, 551,095건의 진료기록)를 대상으로, 대규모 언어 모델(LLM) 기반 파이프라인을 개발하여 전자 건강 기록(EHR)의 임상 노트에서 급성 심근 경색(AMI), 당뇨병, 고혈압 등 다양한 질환을 효율적으로 식별하는 전략을 제시하였다. LLM은 특정 진단, 치료 관리 및 임상 지침을 기반으로 EHR 노트를 분석, 이해 및 해석하도록 프롬프트를 활용하였다. 성능 평가는 임상의 검증 진단을 기준으로 하였으며, 국제 질병 분류(ICD) 코드 기반 방법과 비교 분석하였다. LLM 기반 파이프라인은 AMI(민감도 88%, 특이도 63%, 양성 예측값 77%), 당뇨병(민감도 91%, 특이도 86%, 양성 예측값 71%), 고혈압(민감도 94%, 특이도 32%, 양성 예측값 72%) 진단에서 다양한 성능을 보였으며, ICD 코드 기반 방법에 비해 모든 질환에서 민감도와 음성 예측값이 향상됨을 확인하였다. LLM과 기준 표준으로 검출된 사례의 월별 추세는 일관된 패턴을 보였다.

시사점, 한계점

시사점:
대규모 언어 모델을 활용하여 EHR에서 질병을 효율적으로 식별하는 새로운 전략을 제시하였다.
기존 ICD 코드 기반 방법에 비해 향상된 민감도와 음성 예측값을 보였다.
EHR 기반 질병 감시 및 의료 성과 평가에 효과적으로 활용될 수 있다.
LLM 기반 질환 검출의 월별 추세가 기준 표준과 일관성을 보여 신뢰도를 높였다.
한계점:
질환별로 성능 차이가 존재하며, 특히 고혈압의 특이도가 낮게 나타났다.
LLM 기반 파이프라인의 일반화 가능성 및 다양한 EHR 시스템 적용 가능성에 대한 추가 연구가 필요하다.
다양한 질병 및 더 많은 코호트에 대한 검증이 필요하다.
LLM의 특이도 개선을 위한 추가 연구가 필요하다.
👍