Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions

Created by
  • Haebom
Category
Empty

저자

Gaurav Kumar Gupta, Pranal Pande

개요

본 연구는 두 가지 대규모 언어 모델(LLM) 기반 진단 도구인 DeepSeek R1과 O3 Mini의 성능을 증상과 진단의 구조화된 데이터 세트를 사용하여 평가했습니다. 질병 및 범주 수준 모두에서 예측 정확도와 신뢰도 점수의 신뢰성을 평가한 결과, DeepSeek R1은 질병 수준 정확도 76%, 전반적인 정확도 82%를 달성하여 O3 Mini(각각 72%, 75%)보다 우수한 성능을 보였습니다. DeepSeek R1은 정신 건강, 신경 질환, 종양학 분야에서 100%의 정확도를 달성한 반면, O3 Mini는 자가 면역 질환 분류에서 100%의 정확도를 보였습니다. 그러나 두 모델 모두 호흡기 질환 분류에서 어려움을 겪었으며, DeepSeek R1은 40%, O3 Mini는 20%의 정확도를 기록했습니다. 또한 신뢰도 점수 분석 결과, DeepSeek R1은 92%의 경우에 높은 신뢰도의 예측을 제공한 반면, O3 Mini는 68%였습니다. LLM을 임상 실무에 책임감 있게 통합하기 위해 편향, 모델 해석 가능성 및 데이터 개인 정보 보호에 대한 윤리적 고려 사항도 논의되었습니다. 결론적으로 본 연구 결과는 LLM 기반 진단 시스템의 강점과 한계에 대한 귀중한 통찰력을 제공하고 AI 기반 의료의 향상을 위한 로드맵을 제시합니다.

시사점, 한계점

시사점:
DeepSeek R1이 O3 Mini보다 우수한 진단 정확도를 보임.
특정 질병 분류에서 높은 정확도 달성 (DeepSeek R1: 정신 건강, 신경 질환, 종양학; O3 Mini: 자가 면역 질환).
LLM 기반 진단 시스템의 잠재력과 향후 개선 방향 제시.
신뢰도 점수 분석을 통한 모델 성능 평가의 중요성 강조.
한계점:
호흡기 질환 분류에서 낮은 정확도.
편향, 모델 해석 가능성, 데이터 개인 정보 보호에 대한 윤리적 고려 사항 필요.
사용된 데이터셋의 제한점 (구체적인 내용은 논문에 명시되지 않음).
모델의 일반화 성능에 대한 추가 연구 필요.
👍