Cet article se concentre sur la prédiction sémantique d'occupation (SOP), qui déduit des informations d'occupation et sémantiques dans des zones non observées afin de pallier l'incomplétude des données des capteurs (LiDAR et caméra) en conduite autonome. Pour pallier le manque de modélisation de la structure spatiale dans les méthodes SOP existantes basées sur Transformer, nous proposons l'attention fenêtrée spatialement consciente (SWA), un nouveau mécanisme qui intègre le contexte spatial local à l'attention. SWA atteint des performances de pointe sur les benchmarks SOP basés sur LiDAR et démontre également son applicabilité aux SOP basés sur caméra.