El análisis de imágenes médicas se ve afectado por la escasez de datos anotados por expertos, lo que dificulta la generalización del modelo y su aplicabilidad clínica. Este estudio propone un marco de aprendizaje multipaso, explicable y dirigido por expertos que integra las regiones de interés (ROI) proporcionadas por radiólogos en el entrenamiento del modelo para mejorar simultáneamente el rendimiento de la clasificación y la interpretabilidad. Grad-CAM se utiliza para la supervisión de la atención espacial, introduciendo una pérdida de explicación basada en la similitud de Dice para dirigir la atención del modelo a las regiones relevantes para el diagnóstico durante el entrenamiento. Esta pérdida de explicación se optimiza con un objetivo de red prototípico estándar, lo que fomenta que el modelo se centre en las características clínicamente relevantes incluso con limitaciones de datos. El marco se evaluó en dos conjuntos de datos: BraTS (RM) y VinDr-CXR (línea torácica X). El marco logró una precisión mejorada del 77,09 % al 83,61 % para BraTS y del 54,33 % al 73,29 % para VinDr-CXR. Las visualizaciones Grad-CAM confirman que el entrenamiento dirigido por expertos se centra constantemente en las regiones diagnósticas, lo que mejora tanto la fiabilidad predictiva como la fiabilidad clínica. Estos resultados demuestran la eficacia de incorporar la supervisión dirigida por expertos para reducir la brecha entre el rendimiento y la interpretabilidad en diversos diagnósticos de imágenes médicas de entrenamiento.