본 논문은 DeepSeek-R1을 포함한 4개의 최신 대규모 언어 모델(LLM)의 중국어 및 영어 이중 언어 복잡 안과 사례에 대한 정확성과 추론 능력을 평가했습니다. 중국 안과 전문의 시험 문제 130개를 영어로 번역하여 사용했으며, 진단(39개) 및 치료(91개) 관련 문제로 구성되었습니다. DeepSeek-R1은 중국어 및 영어 MCQ에서 각각 0.862 및 0.808의 정확도를 보이며 다른 세 모델보다 우수한 성능을 나타냈습니다. 추론 오류의 주요 원인은 중요한 양성 병력 및 징후 무시, 의학 데이터 오해, 과도한 치료 등으로 나타났습니다. DeepSeek-R1은 임상 적용에는 어려움이 있지만 진단 및 임상 의사결정 지원에 유용할 가능성을 보여주었습니다.