Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Comparative analysis of privacy-preserving open-source LLMs regarding extraction of diagnostic information from clinical CMR imaging reports

Created by
  • Haebom

저자

Sina Amirrajab, Volker Vehof, Michael Bietenbeck, Ali Yilmaz

개요

본 연구는 개인정보 보호가 가능하고 로컬에 배포되는 오픈소스 대규모 언어 모델(LLM)을 이용하여 자유 형식 심장 자기 공명 영상(CMR) 보고서에서 진단 정보를 추출하는 가능성을 조사했습니다. 109건의 임상 CMR 보고서에 대한 진단 식별 및 심장 진단 범주 분류 능력을 기준으로 9개의 오픈소스 LLM을 평가했습니다. 정확도, 정밀도, 재현율, F1 점수와 같은 표준 분류 지표를 사용하여 성능을 정량화했으며, 혼동 행렬을 사용하여 모델 간의 잘못 분류 패턴을 조사했습니다. 대부분의 오픈소스 LLM은 보고서를 다양한 진단 범주로 분류하는 데 탁월한 성능을 보였습니다. Google의 Gemma2 모델이 평균 F1 점수 0.98로 가장 높았고, Qwen2.5:32B와 DeepseekR1-32B가 각각 0.96과 0.95의 F1 점수를 기록했습니다. 나머지 평가된 모델들도 평균 0.93을 넘는 점수를 얻었으며, Mistral과 DeepseekR1-7B만 예외였습니다. 상위 4개의 LLM은 CMR 보고서 분석에서 모든 평가 지표에서 전문 자격을 갖춘 심장 전문의(F1 점수 0.94)보다 성능이 뛰어났습니다. 이러한 결과는 오픈소스, 개인정보 보호가 가능한 LLM을 임상 환경에서 영상 보고서의 자동 분석에 구현하여 정확하고 빠르며 자원 효율적인 진단 분류가 가능함을 보여줍니다.

시사점, 한계점

시사점:
오픈소스 LLM을 활용하여 심장 자기 공명 영상 보고서의 자동 분석 및 진단 분류가 가능함을 보여줌.
정확하고 빠르며 자원 효율적인 진단을 가능하게 함.
개인정보 보호가 가능한 로컬 배포 방식으로 안전성 확보.
일부 오픈소스 LLM이 전문의 수준을 능가하는 성능을 보임.
한계점:
연구에 사용된 CMR 보고서의 수가 제한적임 (109건).
다양한 유형의 심장 질환 및 보고서 스타일을 더 포괄적으로 포함해야 함.
특정 LLM 모델의 성능 차이에 대한 추가 분석 필요.
임상 환경에서의 실제 적용을 위한 추가적인 검증 및 평가 필요.
Mistral과 DeepseekR1-7B 모델의 상대적으로 낮은 성능에 대한 원인 분석 필요.
👍