Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SLTNet : segmentation sémantique efficace basée sur les événements avec des réseaux légers basés sur des transformateurs pilotés par pics

Created by
  • Haebom

Auteur

Xianlei Long, Xiaxin Zhu, Fangming Guo, Wanyi Zhang, Qingyi Gu, Chao Chen, Fuqiang Gu

Contour

Cet article met en évidence le potentiel de la segmentation sémantique événementielle en conduite autonome et en robotique, en exploitant les avantages des caméras événementielles (plage dynamique élevée, faible latence et faible consommation d'énergie). Les méthodes de segmentation existantes basées sur les RNA présentent des exigences de calcul élevées, des exigences en termes de trames d'image et une consommation énergétique élevée, ce qui limite leur efficacité et leur applicabilité sur les plateformes mobiles et périphériques aux ressources limitées. Pour résoudre ces problèmes, nous présentons SLTNet, un réseau Transformer léger basé sur les pics, conçu pour la segmentation sémantique événementielle. SLTNet extrait des caractéristiques sémantiques riches tout en réduisant les paramètres du modèle grâce à des blocs convolutifs (SCB) efficaces basés sur les pics, et améliore les interactions contextuelles à longue portée grâce aux blocs Transformer (STB) basés sur les pics et aux opérations de masque binaire. Des expériences approfondies sur les jeux de données DDD17 et DSEC-Semantic démontrent que SLTNet améliore jusqu'à 9,06 % et 9,39 % mIoU par rapport aux méthodes SNN de pointe, tout en consommant 4,58 fois moins d'énergie et en atteignant une vitesse d'inférence de 114 FPS. Le code source est accessible au public.

Takeaways, Limitations

Takeaways:
Une méthode de segmentation sémantique efficace utilisant une caméra basée sur les événements est présentée.
Amélioration de l'efficacité énergétique et de la vitesse d'inférence avec des réseaux légers basés sur des pics (SLTNet).
Amélioration des performances par rapport aux méthodes de pointe basées sur SNN (jusqu'à 9,06 % et 9,39 % d'amélioration en mIoU)
Suggérant la possibilité d'élargir la recherche grâce à la divulgation de code source ouvert
Limitations:
Une validation supplémentaire des performances de généralisation de la méthode proposée est nécessaire.
Des résultats expérimentaux supplémentaires pour divers capteurs de caméras d’événements et ensembles de données sont nécessaires.
Besoin d'une évaluation des applications et des performances des systèmes de conduite autonome et robotique actuels
👍