본 연구는 두 가지 대규모 언어 모델(LLM) 기반 진단 도구인 DeepSeek R1과 O3 Mini의 성능을 증상과 진단의 구조화된 데이터 세트를 사용하여 평가했습니다. 질병 및 범주 수준 모두에서 예측 정확도와 신뢰도 점수의 신뢰성을 평가한 결과, DeepSeek R1은 질병 수준 정확도 76%, 전반적인 정확도 82%를 달성하여 O3 Mini(각각 72%, 75%)보다 우수한 성능을 보였습니다. DeepSeek R1은 정신 건강, 신경 질환, 종양학 분야에서 100%의 정확도를 달성한 반면, O3 Mini는 자가 면역 질환 분류에서 100%의 정확도를 보였습니다. 그러나 두 모델 모두 호흡기 질환 분류에서 어려움을 겪었으며, DeepSeek R1은 40%, O3 Mini는 20%의 정확도를 기록했습니다. 또한 신뢰도 점수 분석 결과, DeepSeek R1은 92%의 경우에 높은 신뢰도의 예측을 제공한 반면, O3 Mini는 68%였습니다. LLM을 임상 실무에 책임감 있게 통합하기 위해 편향, 모델 해석 가능성 및 데이터 개인 정보 보호에 대한 윤리적 고려 사항도 논의되었습니다. 결론적으로 본 연구 결과는 LLM 기반 진단 시스템의 강점과 한계에 대한 귀중한 통찰력을 제공하고 AI 기반 의료의 향상을 위한 로드맵을 제시합니다.