Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De tierra a aire: Robustez al ruido en transformadores de visión y CNN para la clasificación de vehículos basada en eventos con posibles aplicaciones en UAV

Created by
  • Haebom

Autor

Nouf Almesafri, Héctor Figueiredo, Miguel Arana-Catania

Describir

Este estudio investiga el rendimiento de dos importantes arquitecturas de aprendizaje profundo de visión artificial para cámaras basadas en eventos: redes neuronales convolucionales (CNN) y transformadores de visión (ViT). A diferencia de las cámaras tradicionales basadas en fotogramas que capturan imágenes estáticas, las cámaras basadas en eventos capturan cambios de escena y son especialmente adecuadas para entornos dinámicos como vehículos aéreos no tripulados (UAV) y vehículos autónomos. Estudiamos los modelos ResNet34 y ViT B16 ajustándolos en el conjunto de datos basado en eventos GEN1, y evaluamos y comparamos los modelos en condiciones estándar y entornos ruidosos simulados. Las evaluaciones iniciales en el conjunto de datos GEN1 limpio muestran que ResNet34 y ViT B16 alcanzan una precisión del 88% y el 86%, respectivamente, con ResNet34 mostrando una ligera ventaja en la precisión de clasificación. Sin embargo, el modelo ViT B16 es particularmente robusto, a pesar de estar preentrenado en un conjunto de datos más pequeño. Aunque este estudio se centra en la clasificación de vehículos terrestres, la metodología y los resultados tienen una gran aplicabilidad a los entornos UAV, incluidos los sistemas de visión basados ​​en eventos para la clasificación de objetos aéreos y tareas relacionadas con la aviación.

Takeaways, Limitations

Takeaways:
A través de un análisis comparativo del desempeño de CNN (ResNet34) y ViT (ViT B16) para cámaras basadas en eventos, presentamos las fortalezas y debilidades de cada arquitectura.
ResNet34 muestra una alta precisión y ViT B16 muestra una excelente robustez.
Más allá de la clasificación de vehículos terrestres, sugiere aplicabilidad a una variedad de aplicaciones, incluidos los UAV.
Limitations:
El estudio se centra únicamente en la clasificación de vehículos terrestres y no se presentan resultados de aplicaciones prácticas para entornos de UAV.
Es posible que falte un análisis profundo de cómo el tamaño y la diversidad del conjunto de datos utilizado afectan el rendimiento del modelo.
Se necesitan experimentos adicionales en otros conjuntos de datos de cámaras basados ​​en eventos o en condiciones de ruido más diversas.
👍