Dans cet article, nous proposons un cadre robuste de détection et de classification, reflétant la réalité clinique, pour relever les défis du diagnostic des tumeurs cérébrales. La détection utilise YOLOv8n, affiné sur un ensemble de données réalistes et déséquilibrées (30 000 coupes IRM de 81 patients) avec un ratio tumeur/normal de 1:9. De plus, nous proposons une nouvelle mesure patient-à-patient (PTP) pour évaluer la fiabilité diagnostique au niveau du patient. La classification utilise la distillation des connaissances pour distiller un modèle d'étudiant Data Efficient Image Transformer (DeiT) à partir d'un modèle d'enseignant ResNet152. Le ViT ainsi distillé atteint un score F1 de 0,92 en 20 époques, approchant ainsi les performances du modèle d'enseignant (F1 = 0,97) tout en réduisant considérablement les ressources de calcul. Ce cadre complet démontre une grande robustesse sur des données de distribution de valeurs aberrantes cliniquement représentatives, offrant un outil viable pour les situations cliniques réelles.