Cette étude se concentre sur le développement d'un modèle de conduite autonome de bout en bout prenant en compte l'interaction contextuelle entre les pixels et propose l'architecture SKGE-Swin. SKGE-Swin utilise le transformateur Swin, qui exploite un mécanisme de saut d'étape, pour étendre les représentations de caractéristiques à plusieurs niveaux de réseau et à l'échelle mondiale. Exploitant le mécanisme d'auto-attention multi-têtes à fenêtre décalée (SW-MSA) du transformateur Swin, il extrait les informations des pixels distants et conserve les informations importantes des étapes initiales à finales, améliorant ainsi la capacité à comprendre les schémas complexes de l'environnement. À l'aide de scénarios contradictoires sur la plateforme CARLA, nous avons simulé et évalué des environnements réels, obtenant des scores de conduite supérieurs aux méthodes existantes. De plus, nous menons une étude d'ablation pour évaluer les contributions de chaque composant architectural, notamment l'impact des connexions de saut et l'utilisation du transformateur Swin.