Este estudio presenta un sistema automático de detección de regiones de interés (ROI) que utiliza técnicas de aprendizaje profundo e IA explicable (xAI) para mejorar la eficiencia y la objetividad de la interpretación de la resonancia magnética, esencial para la evaluación de lesiones de rodilla. Se evaluaron diversas arquitecturas de aprendizaje profundo, como ResNet50, InceptionV3, Vision Transformers (ViT) y diversas variantes de U-Net, mediante métodos de aprendizaje supervisado y autosupervisado. Se integraron técnicas de xAI, como Grad-CAM y Saliency Maps, para mejorar la interpretabilidad. El rendimiento se evaluó mediante el área bajo la curva (AUC) (clasificación), PSNR/SSIM (calidad de reconstrucción) y visualización cualitativa de ROI. ResNet50 demostró un rendimiento superior en la clasificación y la identificación de ROI en comparación con los modelos basados en Transformers en el conjunto de datos MRNet. Un modelo combinado U-Net + MLP mostró potencial para mejorar la reconstrucción y la interpretabilidad, pero un rendimiento de clasificación inferior, mientras que Grad-CAM proporcionó las explicaciones con mayor relevancia clínica entre todas las arquitecturas. En conclusión, el aprendizaje por transferencia basado en CNN fue más efectivo en este conjunto de datos y se esperan futuras mejoras en el rendimiento de los modelos Transformer a través de un preentrenamiento a gran escala.