Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Capacités du GPT-5 sur le raisonnement médical multimodal

Created by
  • Haebom

Auteur

Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang

Contour

Cette étude a évalué systématiquement les performances d'inférence en chaîne de gorge zéro-shot de GPT-5 en tant que moteur d'inférence multimodale pour l'aide à la décision médicale dans des tâches de questions-réponses textuelles et visuelles. Nous avons évalué GPT-5, GPT-5-mini, GPT-5-nano et GPT-4o-2024-11-20 sur des ensembles de données standardisés incluant MedQA, MedXpertQA, le sous-ensemble médical MMLU, l'examen d'auto-évaluation USMLE et VQA-RAD. Nous avons constaté que GPT-5 surpassait tous les modèles de référence, atteignant une précision de pointe sur tous les tests d'assurance qualité et démontrant des améliorations significatives des performances en inférence multimodale. Plus précisément, sur MedXpertQA MM, GPT-5 a amélioré le score d'inférence de +29,26 % et le score de compréhension de +26,18 % par rapport à GPT-4o, et a surpassé les experts humains agréés de +24,23 % et +29,40 %, respectivement. GPT-5 a démontré sa capacité à intégrer des indices visuels et textuels pour construire une chaîne d'inférence diagnostique cohérente et recommander des interventions à haut risque appropriées. Ces résultats suggèrent que GPT-5 surpasse les niveaux humains et même experts sur les benchmarks d'inférence multimodale contrôlée, fournissant des informations précieuses pour la conception de futurs systèmes d'aide à la décision clinique.

Takeaways, Limitations

Takeaways:
Nous avons démontré que GPT-5 surpassait les experts humains en raisonnement multimodal dans le domaine médical.
En obtenant d’excellentes performances avec un apprentissage zéro coup uniquement, nous présentons de nouvelles possibilités pour le développement de systèmes d’aide à la décision médicale.
En démontrant constamment des performances élevées sur divers ensembles de données médicales, nous avons confirmé la polyvalence et la fiabilité du GPT-5.
Fournit Takeaways, qui est important pour la conception et le développement de futurs systèmes d’aide à la décision clinique.
Limitations:
Cette étude a utilisé un ensemble de données de référence limité et peut ne pas refléter pleinement la complexité des contextes cliniques réels.
Des recherches supplémentaires sont nécessaires pour explorer la transparence et l’explicabilité du processus décisionnel du GPT-5.
Une analyse plus approfondie du biais et de la stabilité du modèle est nécessaire.
Une validation supplémentaire des performances dans des environnements cliniques réels est requise.
👍