Nghiên cứu này đã đánh giá một cách có hệ thống hiệu suất suy luận chuỗi họng không bắn của GPT-5 như một công cụ suy luận đa phương thức để hỗ trợ quyết định y tế trong các nhiệm vụ trả lời câu hỏi dựa trên văn bản và dựa trên hình ảnh. Chúng tôi đã đánh giá GPT-5, GPT-5-mini, GPT-5-nano và GPT-4o-2024-11-20 trên các tập dữ liệu chuẩn hóa bao gồm MedQA, MedXpertQA, tập hợp con y tế MMLU, bài kiểm tra tự đánh giá USMLE và VQA-RAD. Chúng tôi nhận thấy rằng GPT-5 vượt trội hơn tất cả các mô hình cơ sở, đạt được độ chính xác tiên tiến trên tất cả các điểm chuẩn QA và thể hiện những cải tiến hiệu suất đáng kể trong suy luận đa phương thức. Cụ thể, trên MedXpertQA MM, GPT-5 đã cải thiện điểm suy luận thêm +29,26% và điểm hiểu thêm +26,18% so với GPT-4o và vượt trội hơn các chuyên gia được cấp phép lần lượt là +24,23% và +29,40%. GPT-5 đã chứng minh khả năng tích hợp các tín hiệu hình ảnh và văn bản để xây dựng một chuỗi suy luận chẩn đoán mạch lạc và đề xuất các biện pháp can thiệp phù hợp với rủi ro cao. Những kết quả này cho thấy GPT-5 hoạt động vượt trội so với con người và thậm chí cả trình độ chuyên gia trên các chuẩn mực suy luận đa phương thức được kiểm soát, cung cấp thông tin giá trị cho việc thiết kế các hệ thống hỗ trợ quyết định lâm sàng trong tương lai.