본 연구는 2024년과 2025년 스페인 의대 인턴 레지던트 MIR 시험에서 22개의 대규모 언어 모델(LLM)을 비교 평가한 결과를 제시합니다. 임상 추론 영역 특화 전문 지식과 다중 모드 처리 능력에 초점을 맞추어, 이미지 해석이 필요한 다지선다형 210문항으로 구성된 MIR 시험을 엄격한 벤치마크로 사용하여 사실 암기와 복잡한 임상 문제 해결 능력을 평가했습니다. GPT-4, Claude, LLaMA, Gemini와 같은 범용 모델과 스페인 의료 데이터를 활용하여 의료 환경에서 우수한 성능을 보이는 Miri Pro와 같은 특화된 미세 조정 시스템을 포함하여 평가했습니다. 최근 출시된 Deepseek 및 Grok은 특히 고급 시각 및 의미 분석이 필요한 작업에 대한 평가 범위를 더욱 풍부하게 했습니다. 그 결과, 범용 LLM은 전반적으로 견고한 성능을 보이는 반면, 미세 조정된 모델은 특히 미묘한 영역별 과제를 해결하는 데 있어 일관되게 우수한 정확도를 달성했습니다. 두 시험 주기 사이에 관찰된 약간의 성능 저하는 암기 의존도를 완화하기 위해 설계된 수정된 질문의 구현 때문인 것으로 보입니다. 이 결과는 의료 AI 애플리케이션 발전에 있어 영역 특화 미세 조정과 다중 모드 통합의 혁신적인 잠재력을 강조하며, 자동화된 추론과 윤리적이고 맥락을 인식하는 판단의 균형을 맞추는 것이 중요함을 강조하여 의료 교육, 훈련 및 임상 의사 결정에 LLM을 통합하는 미래의 중요한 의미를 강조합니다.