En este artículo, proponemos una arquitectura novedosa, VARMAformer, para mejorar la eficiencia y la precisión de los modelos de pronóstico de series temporales basados en Transformers. Manteniendo la eficiencia de los métodos existentes basados únicamente en atención cruzada, combinamos las ventajas del modelo VARMA para capturar con mayor eficacia las dependencias temporales locales. Entre las innovaciones clave se incluyen el Extractor de Características (VFE) inspirado en VARMA, que modela explícitamente los patrones AR y MA, y el mecanismo de Atención Mejorada por VARMA (VE-atten), que mejora la comprensión contextual. Experimentos con diversos conjuntos de datos de referencia demuestran que VFE supera a los modelos de vanguardia existentes, lo que demuestra las importantes ventajas de integrar información estadística clásica en los marcos modernos de aprendizaje profundo para el pronóstico de series temporales.