Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Robustez de oclusión del CLIP para la clasificación de vehículos militares

Created by
  • Haebom

Autor

Jan Erik van Woerden, Gertjan Burghouts, Lotte Nijskens, Alma M. Liezenga, Sabina van Rooij, Frank Ruis, Hugo J. Kuijf

Describir

Este artículo estudia la robustez de los Modelos de Visión-Lenguaje (VLM), como CLIP, útiles en aplicaciones de defensa con datos etiquetados limitados. Específicamente, para investigar la robustez de CLIP en entornos militares complejos, como la oclusión parcial y la baja relación señal-ruido (SNR), evaluamos el Área Normalizada Bajo la Curva (NAUC) en función del porcentaje de oclusión utilizando un conjunto de datos personalizado de 18 clases de vehículos militares. Descubrimos que el modelo CLIP basado en Transformer superó a las CNN, con oclusiones distribuidas de grano fino que mostraron una mayor degradación del rendimiento que las oclusiones continuas gruesas. Además, observamos que el modelo de sonda lineal se degrada rápidamente a una oclusión de aproximadamente el 35%, mientras que el ajuste fino de la estructura principal reduce la degradación del rendimiento a oclusiones del 60% o superiores.

Takeaways, Limitations

Takeaways:
Se demuestra que los modelos CLIP basados ​​en transformadores son más resistentes a la oclusión que las CNN.
Las oclusiones finas y difusas tienen un mayor impacto en la degradación del rendimiento.
La robustez a la oclusión se puede mejorar ajustando la columna vertebral.
Enfatizar la importancia de la mejora específica de la oclusión durante el entrenamiento.
Limitations:
El estudio se limita a un conjunto de datos de vehículos militares específico.
Se necesitan más investigaciones sobre la sensibilidad a nivel de parche y la resiliencia arquitectónica.
Se requiere validación adicional para la implementación en el mundo real.
👍