Este artículo presenta un marco integrado basado en un único Modelo de Lenguaje de Visión (VLM) para abordar la fragmentación e ineficiencia del flujo de trabajo del análisis de imágenes médicas. Este marco aprovecha el VLM en dos funciones. En primer lugar, el VLM actúa como un comparador de tarjetas de modelo, enrutando las imágenes médicas a los modelos especializados adecuados. Realiza un proceso de tres pasos (modalidad -> anomalía mayor -> ID de tarjeta de modelo), con comprobaciones de terminación temprana en cada paso que mejoran la precisión. En segundo lugar, el VLM se ajusta con precisión a conjuntos de datos específicos del dominio para gestionar múltiples subtareas con un único modelo. En gastroenterología, hematología, oftalmología y patología, las implementaciones de un único modelo demuestran un rendimiento equivalente o similar al de los modelos de referencia especializados. Se espera que esto reduzca el esfuerzo de los científicos de datos, acelere la monitorización, aumente la transparencia en la selección de modelos y reduzca la sobrecarga de integración.