Este estudio investiga el rendimiento de dos importantes arquitecturas de aprendizaje profundo de visión artificial para cámaras basadas en eventos: redes neuronales convolucionales (CNN) y transformadores de visión (ViT). A diferencia de las cámaras tradicionales basadas en fotogramas que capturan imágenes estáticas, las cámaras basadas en eventos capturan cambios de escena y son especialmente adecuadas para entornos dinámicos como vehículos aéreos no tripulados (UAV) y vehículos autónomos. Estudiamos los modelos ResNet34 y ViT B16 ajustándolos en el conjunto de datos basado en eventos GEN1, y evaluamos y comparamos los modelos en condiciones estándar y entornos ruidosos simulados. Las evaluaciones iniciales en el conjunto de datos GEN1 limpio muestran que ResNet34 y ViT B16 alcanzan una precisión del 88% y el 86%, respectivamente, con ResNet34 mostrando una ligera ventaja en la precisión de clasificación. Sin embargo, el modelo ViT B16 es particularmente robusto, a pesar de estar preentrenado en un conjunto de datos más pequeño. Aunque este estudio se centra en la clasificación de vehículos terrestres, la metodología y los resultados tienen una gran aplicabilidad a los entornos UAV, incluidos los sistemas de visión basados en eventos para la clasificación de objetos aéreos y tareas relacionadas con la aviación.