Cette étude présente un système de détection automatique de région d'intérêt (ROI) utilisant des techniques d'apprentissage profond et d'IA explicable (xAI) pour améliorer l'efficacité et l'objectivité de l'interprétation de l'IRM, essentielle à l'évaluation des lésions du genou. Différentes architectures d'apprentissage profond, dont ResNet50, InceptionV3, Vision Transformers (ViT) et diverses variantes d'U-Net, ont été évaluées à l'aide de méthodes d'apprentissage supervisé et auto-supervisé. Des techniques xAI, telles que Grad-CAM et Saliency Maps, ont été intégrées pour améliorer l'interprétabilité. Les performances ont été évaluées à l'aide de l'aire sous la courbe (AUC) (classification), du PSNR/SSIM (qualité de reconstruction) et de la visualisation qualitative des ROI. ResNet50 a démontré des performances supérieures en matière de classification et d'identification des ROI par rapport aux modèles basés sur Transformer sur l'ensemble de données MRNet. Un modèle combiné U-Net + MLP a montré un potentiel d'amélioration de la reconstruction et de l'interprétabilité, mais des performances de classification inférieures, tandis que Grad-CAM a fourni les explications les plus significatives cliniquement parmi toutes les architectures. En conclusion, l’apprentissage par transfert basé sur CNN s’est avéré le plus efficace sur cet ensemble de données, et des améliorations futures des performances des modèles Transformer grâce à une préformation à grande échelle sont attendues.