En este artículo, presentamos el Aprendizaje de Múltiples Instancias Conformado (ConMIL), un novedoso marco de apoyo a la toma de decisiones que complementa las fortalezas y debilidades de los modelos de lenguaje a gran escala (LLM), excelentes para la interpretación de series temporales médicas, y de los modelos especializados a pequeña escala (SSM), excelentes para el rendimiento en tareas específicas. ConMIL consta de tres componentes principales: (1) QTrans-Pooling, un novedoso mecanismo de aprendizaje de múltiples instancias (MIL) para identificar intervalos de señales fisiológicas clínicamente relevantes; (2) predicciones de referencia integradas con MIL para generar salidas de valores calibrados para asegurar la fiabilidad estadística; y (3) un enfoque estructurado para mejorar la capacidad de inspección visual de los LLM mediante salidas de SSM interpretables y cuantificadas por incertidumbre. Mediante experimentos de detección de arritmias y clasificación de etapas del sueño, demostramos que ConMIL puede superar a LLM como ChatGPT4.0, Qwen2-VL-7B y MiMo-VL-7B-RL. Por ejemplo, Qwen2-VL-7B y MiMo-VL-7B-RL con soporte de ConMIL alcanzaron una precisión del 94,92 % y el 96,82 % para muestras seguras, y del 70,61 % y el 78,02 %/78,10 % y el 71,98 % para muestras inciertas en ambas tareas, lo que representa una mejora significativa con respecto a la precisión del 46,13 % y el 13,16 % obtenida con el uso exclusivo de LLM. Estos resultados sugieren que la integración de modelos específicos de tarea con LLM puede ofrecer una vía prometedora para un soporte de decisiones clínicas basado en IA más interpretable y fiable.