Sign In

DeepSeek-R1 Outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in Bilingual Complex Ophthalmology Reasoning

Created by
  • Haebom
Category
Empty

저자

Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi

개요

본 논문은 DeepSeek-R1을 포함한 4개의 최신 대규모 언어 모델(LLM)의 중국어 및 영어 이중 언어 복잡 안과 사례에 대한 정확성과 추론 능력을 평가했습니다. 중국 안과 전문의 시험 문제 130개를 영어로 번역하여 사용했으며, 진단(39개) 및 치료(91개) 관련 문제로 구성되었습니다. DeepSeek-R1은 중국어 및 영어 MCQ에서 각각 0.862 및 0.808의 정확도를 보이며 다른 세 모델보다 우수한 성능을 나타냈습니다. 추론 오류의 주요 원인은 중요한 양성 병력 및 징후 무시, 의학 데이터 오해, 과도한 치료 등으로 나타났습니다. DeepSeek-R1은 임상 적용에는 어려움이 있지만 진단 및 임상 의사결정 지원에 유용할 가능성을 보여주었습니다.

시사점, 한계점

시사점:
DeepSeek-R1이 다국어 복잡 안과 추론 과제에서 다른 최첨단 LLM보다 우수한 성능을 보임.
진단 및 임상 의사결정 지원 도구로서의 LLM 활용 가능성 제시.
LLM의 추론 오류 원인 분석을 통해 모델 개선 방향 제시 (중요 정보 무시, 데이터 오해, 과도한 치료 경향).
한계점:
DeepSeek-R1의 임상 적용에는 여전히 어려움이 존재.
연구에 사용된 MCQ의 수와 범위가 제한적일 수 있음.
실제 임상 환경에서의 성능 평가가 부족.
모든 LLM이 유사한 추론 논리를 공유한다는 점은 추가적인 분석이 필요함.
👍