Cet article présente un cadre intégré basé sur un modèle vision-langage (VLM) unique pour remédier à la fragmentation et à l'inefficacité du pipeline d'analyse d'images médicales. Ce cadre exploite le VLM dans deux rôles. Premièrement, le VLM agit comme un outil de mise en correspondance de cartes de modèles, acheminant les images médicales vers les modèles spécialisés appropriés. Il exécute un processus en trois étapes (modalité -> anomalie majeure -> ID de la carte de modèles), avec des vérifications d'arrêt anticipé à chaque étape améliorant la précision. Deuxièmement, le VLM est optimisé sur des ensembles de données spécifiques à un domaine afin de gérer plusieurs sous-tâches avec un seul modèle. En gastro-entérologie, hématologie, ophtalmologie et pathologie, les déploiements de modèles uniques affichent des performances équivalentes ou similaires à celles des modèles de base spécialisés. Cela devrait réduire le travail des data scientists, accélérer la surveillance, accroître la transparence dans la sélection des modèles et réduire les frais d'intégration.