Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions

Created by
  • Haebom

저자

Gaurav Kumar Gupta, Pranal Pande, Nirajan Acharya, Aniket Kumar Singh, Suman Niroula

개요

본 연구는 두 가지 대규모 언어 모델(LLM) 기반 진단 도구, DeepSeek R1과 O3 Mini의 성능을 구조화된 증상 및 진단 데이터 세트를 사용하여 평가했습니다. 질병 및 범주 수준에서 예측 정확도와 신뢰도 점수의 신뢰성을 평가한 결과, DeepSeek R1은 질병 수준 정확도 76%, 전체 정확도 82%를 달성하여 O3 Mini(각각 72%, 75%)보다 우수한 성능을 보였습니다. DeepSeek R1은 정신 건강, 신경 질환 및 종양학 분야에서 100%의 정확도를 달성한 반면, O3 Mini는 자가 면역 질환 분류에서 100%의 정확도를 보였습니다. 그러나 두 모델 모두 호흡기 질환 분류에서 어려움을 겪었으며, DeepSeek R1은 40%, O3 Mini는 20%의 정확도를 기록했습니다. 또한, 신뢰도 점수 분석 결과 DeepSeek R1은 92%의 경우 고신뢰도 예측을 제공한 반면, O3 Mini는 68%였습니다. LLM의 책임 있는 임상 적용을 위해 편향, 모델 해석 가능성 및 데이터 개인 정보 보호에 대한 윤리적 고려 사항도 논의되었습니다. 결론적으로, 이 연구 결과는 LLM 기반 진단 시스템의 강점과 한계에 대한 귀중한 통찰력을 제공하고 AI 기반 의료의 향상을 위한 로드맵을 제시합니다.

시사점, 한계점

시사점:
DeepSeek R1은 특정 질병 분류(정신 건강, 신경 질환, 종양학)에서 매우 높은 정확도를 보임.
LLM 기반 진단 도구가 의료 진단의 정확성을 향상시킬 수 있음을 시사.
신뢰도 점수는 모델의 예측 신뢰도를 평가하는 데 유용한 지표임.
AI 기반 의료 시스템 개발 및 향상을 위한 로드맵 제시.
한계점:
두 모델 모두 호흡기 질환 분류에서 낮은 정확도를 보임.
모델의 편향, 해석 가능성, 데이터 프라이버시 문제에 대한 추가 연구 필요.
사용된 데이터셋의 제한으로 인한 일반화 가능성의 제약.
O3 Mini의 상대적으로 낮은 정확도 및 신뢰도.
👍