Cet article souligne que l'intégration de transformateurs dans les modèles de vision a apporté des améliorations significatives aux tâches de vision, mais nécessite toujours une quantité importante de calculs, tant pour l'apprentissage que pour l'inférence. Les mécanismes d'attention limitée réduisent considérablement cette charge de calcul, mais au prix d'une perte de cohérence globale ou locale. Pour y remédier, cet article propose une méthode simple mais puissante qui permet à la tête d'attention d'un seul transformateur de se concentrer sur plusieurs champs récepteurs. Nous présentons un modèle appelé StyleNAT en intégrant cette méthode (Attention de voisinage, NA) dans une architecture basée sur StyleGAN. StyleNAT atteint un FID de 2,05 sur FFHQ, soit 6 % de mieux que StyleGAN-XL, et atteint un débit 4 fois supérieur tout en utilisant 28 % de paramètres en moins. Il atteint la frontière de Pareto sur FFHQ-256 et démontre une génération d'images efficace et robuste sur d'autres jeux de données. Le code et les points de contrôle du modèle sont accessibles au public.