Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Du sol à l'air : robustesse au bruit dans les transformateurs de vision et les CNN pour la classification des véhicules basée sur les événements avec des applications potentielles pour les drones

Created by
  • Haebom

Auteur

Nouf Almesafri, Hector Figueiredo, Miguel Arana-Catane

Contour

Cette étude examine les performances de deux architectures majeures d'apprentissage profond en vision par ordinateur pour les caméras événementielles : les réseaux de neurones convolutifs (CNN) et les transformateurs de vision (ViT). Contrairement aux caméras traditionnelles basées sur des images fixes, les caméras événementielles capturent les changements de scène et sont particulièrement adaptées aux environnements dynamiques tels que les drones et les véhicules autonomes. Nous étudions les modèles ResNet34 et ViT B16 en les affinant sur le jeu de données événementielles GEN1, puis nous les évaluons et les comparons dans des conditions standard et des environnements bruyants simulés. Les premières évaluations sur le jeu de données GEN1 propre montrent que ResNet34 et ViT B16 atteignent respectivement 88 % et 86 % de précision, ResNet34 affichant un léger avantage en termes de précision de classification. Cependant, le modèle ViT B16 est particulièrement robuste, malgré un pré-entraînement sur un jeu de données plus restreint. Bien que cette étude se concentre sur la classification des véhicules terrestres, la méthodologie et les résultats ont une grande applicabilité aux environnements de drones, y compris les systèmes de vision basés sur des événements pour la classification des objets aériens et les tâches liées à l'aviation.

Takeaways, Limitations_

Takeaways:
À Travers une analyse comparative des performances de CNN (ResNet34) et ViT (ViT B16) pour les caméras événementielles, nous présentons les forces et les faiblesses de chaque architecture.
ResNet34 montre une grande précision et ViT B16 montre une excellente robustesse.
Au-delà de la classification des véhicules terrestres, cela suggère une applicabilité à une variété d'applications, y compris les drones.
Limitations:
L’étude se concentre uniquement sur la classification des véhicules terrestres et aucun résultat d’application pratique pour les environnements UAV n’est présenté.
Il peut y avoir un manque d’analyse approfondie de la manière dont la taille et la diversité de l’ensemble de données utilisé affectent les performances du modèle.
Des expériences supplémentaires sont nécessaires sur d’autres ensembles de données de caméras basées sur des événements ou sur des conditions de bruit plus diverses.
👍