Este artículo presenta un marco innovador para la detección temprana del cáncer de mama. Mediante la integración de Vision Transformer (ViT) y Graph Neural Network (GNN), mejoramos la precisión de la detección del cáncer de mama hasta en un 84,2 % utilizando el conjunto de datos CBIS-DDSM. ViT modela las características globales de la imagen, y GNN modela las relaciones estructurales, logrando un mejor rendimiento que los métodos existentes y apoyando el juicio clínico de los médicos mediante mapas de calor de atención interpretables.