본 연구는 GPT-5를 의료 의사결정 지원을 위한 다중 모달 추론 엔진으로 활용하여, 텍스트 기반 및 시각 기반 질의응답 과제에서 제로샷 체인 오브 스로트 추론 성능을 체계적으로 평가했습니다. GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20을 MedQA, MedXpertQA, MMLU 의료 하위 집합, USMLE 자가 평가 시험, VQA-RAD 등의 표준화된 데이터셋으로 평가한 결과, GPT-5가 모든 기준 모델을 능가하여 모든 QA 벤치마크에서 최첨단 정확도를 달성하고 다중 모달 추론에서 상당한 성능 향상을 보였습니다. 특히 MedXpertQA MM에서 GPT-5는 GPT-4o에 비해 추론 점수는 +29.26%, 이해 점수는 +26.18% 향상되었으며, 면허를 소지한 전문가보다 추론 점수는 +24.23%, 이해 점수는 +29.40% 높은 성능을 보였습니다. GPT-5는 시각적 및 텍스트적 단서를 통합하여 일관된 진단 추론 체인을 구성하고 적절한 고위험 개입을 권장하는 능력을 보여주었습니다. 이러한 결과는 GPT-5가 통제된 다중 모달 추론 벤치마크에서 인간 수준을 넘어 전문가 수준을 상회하는 성능을 보임을 시사하며, 향후 임상 의사결정 지원 시스템 설계에 중요한 정보를 제공할 수 있습니다.