Cette étude examine les performances de deux architectures majeures d'apprentissage profond en vision par ordinateur pour les caméras événementielles : les réseaux de neurones convolutifs (CNN) et les transformateurs de vision (ViT). Contrairement aux caméras traditionnelles basées sur des images fixes, les caméras événementielles capturent les changements de scène et sont particulièrement adaptées aux environnements dynamiques tels que les drones et les véhicules autonomes. Nous étudions les modèles ResNet34 et ViT B16 en les affinant sur le jeu de données événementielles GEN1, puis nous les évaluons et les comparons dans des conditions standard et des environnements bruyants simulés. Les premières évaluations sur le jeu de données GEN1 propre montrent que ResNet34 et ViT B16 atteignent respectivement 88 % et 86 % de précision, ResNet34 affichant un léger avantage en termes de précision de classification. Cependant, le modèle ViT B16 est particulièrement robuste, malgré un pré-entraînement sur un jeu de données plus restreint. Bien que cette étude se concentre sur la classification des véhicules terrestres, la méthodologie et les résultats ont une grande applicabilité aux environnements de drones, y compris les systèmes de vision basés sur des événements pour la classification des objets aériens et les tâches liées à l'aviation.