Este artículo propone un novedoso marco híbrido, CE-RS-SBCIT, para el diagnóstico temprano y la clasificación precisa de tumores cerebrales. Para abordar el alto costo computacional, la sensibilidad a cambios sutiles de contraste, la heterogeneidad estructural y la inconsistencia tisular de los modelos CNN y Transformer existentes, integramos CNN basadas en aprendizaje residual y espacial con módulos basados en Transformer. Las innovaciones clave incluyen (i) un Transformer integrado en CNN (SBCIT) basado en suavizado y bordes, (ii) una CNN personalizada con aprendizaje residual y espacial, (iii) una estrategia de mejora de canal (CE) y (iv) un novedoso mecanismo de atención espacial. SBCIT utiliza bloques de convolución de tallos y transformadores de interacción contextual para un modelado eficiente de características globales, mientras que las CNN residuales y espaciales enriquecen el espacio de representación con mapas de características aprendidos por transferencia. El módulo CE amplifica los canales discriminativos y mitiga la redundancia, mientras que el mecanismo de atención espacial enfatiza selectivamente el contraste sutil y los cambios tisulares. Los experimentos con varios conjuntos de datos de resonancia magnética de Kaggle y Figshare mostraron un rendimiento excelente, logrando una precisión del 98,30 %, una sensibilidad del 98,08 %, un puntaje F1 del 98,25 % y una precisión del 98,43 %.