Dans cet article, nous proposons une nouvelle architecture, VARMAformer, pour améliorer l'efficacité et la précision des modèles de prévision de séries chronologiques basés sur Transformer. Tout en conservant l'efficacité des méthodes existantes basées uniquement sur l'attention croisée, nous combinons les atouts du modèle VARMA pour mieux saisir les dépendances temporelles locales. Parmi les innovations clés, citons l'extracteur de caractéristiques (VFE) inspiré de VARMA, qui modélise explicitement les schémas AR et MA, et le mécanisme d'attention améliorée par VARMA (VE-atten), qui améliore la perception contextuelle. Des expériences sur divers jeux de données de référence démontrent que VFE surpasse les modèles de pointe existants, démontrant ainsi les avantages significatifs de l'intégration d'informations statistiques classiques dans les cadres modernes d'apprentissage profond pour la prévision de séries chronologiques.