본 연구는 2024년과 2025년 스페인 의대 인턴 레지던트(MIR) 시험에서 22개의 대규모 언어 모델(LLM)을 비교 평가한 결과를 제시합니다. 임상 추론 영역 특화 전문성과 다중 모드 처리 능력에 초점을 맞추어, 이미지 해석이 필요한 객관식 문제 210개로 구성된 MIR 시험을 엄격한 벤치마크로 사용했습니다. GPT-4, Claude, LLaMA, Gemini와 같은 범용 모델과 스페인 의료 데이터를 활용하여 의료 분야에서 뛰어난 성능을 보이는 Miri Pro와 같은 특화된 미세 조정 모델을 포함하여 평가했습니다. 최근 출시된 Deepseek 및 Grok과 같은 모델은 특히 고급 시각 및 의미 분석을 요구하는 작업에서 평가 범위를 더욱 풍부하게 했습니다. 결과는 범용 LLM이 전반적으로 견고한 성능을 보이는 반면, 특화된 미세 조정 모델이 특히 미묘한 도메인 특정 과제를 해결하는 데 있어 일관되게 우수한 정확도를 달성함을 나타냅니다. 두 시험 주기 사이에 관찰된 성능의 약간의 저하는 암기 의존도를 완화하기 위해 수정된 질문의 구현 때문인 것으로 보입니다. 결과는 의료 AI 애플리케이션 발전에 있어 도메인 특정 미세 조정 및 다중 모드 통합의 혁신적인 잠재력을 강조하며, 자동화된 추론과 윤리적이고 상황에 맞는 판단의 균형을 유지하는 것의 중요성을 강조하면서 의료 교육, 훈련 및 임상 의사 결정에 대한 중요한 함의를 보여줍니다.