Este estudio se centra en el desarrollo de un modelo integral de conducción autónoma que considera la interacción contextual entre píxeles y propone la arquitectura SKGE-Swin. SKGE-Swin utiliza el Transformador Swin, que aprovecha un mecanismo de salto de etapa, para expandir las representaciones de características a través de múltiples niveles de red y globalmente. Aprovechando el mecanismo de Autoatención Multicabezal Basada en Ventana Desplazada (SW-MSA) del Transformador Swin, extrae información de píxeles distantes y retiene información importante desde la etapa inicial hasta la final, mejorando la capacidad de comprender patrones complejos en el entorno circundante. Utilizando escenarios adversarios en la plataforma CARLA, simulamos y evaluamos entornos reales, obteniendo puntuaciones de conducción superiores a las de los métodos existentes. Además, realizamos un estudio de ablación para evaluar las contribuciones de cada componente arquitectónico, incluyendo el impacto de las conexiones de salto y el uso del Transformador Swin.