Cette étude a évalué systématiquement les performances d'inférence en chaîne de gorge zéro-shot de GPT-5 en tant que moteur d'inférence multimodale pour l'aide à la décision médicale dans des tâches de questions-réponses textuelles et visuelles. Nous avons évalué GPT-5, GPT-5-mini, GPT-5-nano et GPT-4o-2024-11-20 sur des ensembles de données standardisés incluant MedQA, MedXpertQA, le sous-ensemble médical MMLU, l'examen d'auto-évaluation USMLE et VQA-RAD. Nous avons constaté que GPT-5 surpassait tous les modèles de référence, atteignant une précision de pointe sur tous les tests d'assurance qualité et démontrant des améliorations significatives des performances en inférence multimodale. Plus précisément, sur MedXpertQA MM, GPT-5 a amélioré le score d'inférence de +29,26 % et le score de compréhension de +26,18 % par rapport à GPT-4o, et a surpassé les experts humains agréés de +24,23 % et +29,40 %, respectivement. GPT-5 a démontré sa capacité à intégrer des indices visuels et textuels pour construire une chaîne d'inférence diagnostique cohérente et recommander des interventions à haut risque appropriées. Ces résultats suggèrent que GPT-5 surpasse les niveaux humains et même experts sur les benchmarks d'inférence multimodale contrôlée, fournissant des informations précieuses pour la conception de futurs systèmes d'aide à la décision clinique.