Cet article met en évidence le potentiel de la segmentation sémantique événementielle en conduite autonome et en robotique, en exploitant les avantages des caméras événementielles (plage dynamique élevée, faible latence et faible consommation d'énergie). Les méthodes de segmentation existantes basées sur les RNA présentent des exigences de calcul élevées, des exigences en termes de trames d'image et une consommation énergétique élevée, ce qui limite leur efficacité et leur applicabilité sur les plateformes mobiles et périphériques aux ressources limitées. Pour résoudre ces problèmes, nous présentons SLTNet, un réseau Transformer léger basé sur les pics, conçu pour la segmentation sémantique événementielle. SLTNet extrait des caractéristiques sémantiques riches tout en réduisant les paramètres du modèle grâce à des blocs convolutifs (SCB) efficaces basés sur les pics, et améliore les interactions contextuelles à longue portée grâce aux blocs Transformer (STB) basés sur les pics et aux opérations de masque binaire. Des expériences approfondies sur les jeux de données DDD17 et DSEC-Semantic démontrent que SLTNet améliore jusqu'à 9,06 % et 9,39 % mIoU par rapport aux méthodes SNN de pointe, tout en consommant 4,58 fois moins d'énergie et en atteignant une vitesse d'inférence de 114 FPS. Le code source est accessible au public.