Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Pensamiento multipaso entre dominios: Reconocimiento de señales de tráfico de grano fino y de cero disparos en la naturaleza

Created by
  • Haebom

Autor

Yaozong Gan, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama

Describir

En este artículo, proponemos un marco de razonamiento multinivel interdominio (CdMT) para mejorar el rendimiento del reconocimiento de señales de tráfico (TSR) de grano fino y sin disparos en entornos naturales. Los métodos existentes presentan dificultades, especialmente en escenarios de TSR intercontinentales debido a las diferencias en las señales de tráfico entre países, y CdMT aprovecha la capacidad de razonamiento multinivel de los modelos multimodales (LMM) a gran escala para abordar este desafío. Diseñamos un proceso de razonamiento multinivel para LMM mediante la introducción de contexto, características y explicaciones discriminativas. Las explicaciones de contexto mejoradas, mediante la optimización de la indicación del centroide, permiten la localización precisa de señales en imágenes viales complejas y el filtrado de respuestas irrelevantes. Las explicaciones de características derivadas del aprendizaje de contexto con señales de tráfico modelo acortan la brecha entre dominios y mejoran el TSR de grano fino, mientras que las explicaciones discriminativas mejoran la capacidad de razonamiento multimodal de los LMM al distinguir diferencias sutiles entre señales similares. CdMT es independiente de los datos de entrenamiento y solo requiere instrucciones simples y uniformes para lograr el TSR intercontinental. Mediante experimentos exhaustivos con tres conjuntos de datos de referencia y dos conjuntos de datos reales, demostramos que el marco CdMT propuesto supera a los métodos más avanzados en los cinco conjuntos de datos. (GTSRB 0,93, BTSD 0,89, TT-100K 0,97, Sapporo 0,89, Yokohama 0,85)

Takeaways, Limitations

Takeaways:
Presentamos una solución eficaz al problema del reconocimiento de señales de tráfico de partículas finas de disparo cero
Un nuevo enfoque para superar las dificultades del reconocimiento de señales de tráfico transfronterizas
Aproveche eficazmente las capacidades de inferencia multinivel de los modelos multimodales a gran escala
Un marco que es fácil de aplicar y tiene baja dependencia de los datos de entrenamiento.
Excelente verificación del rendimiento en varios conjuntos de datos
Limitations:
Debido a que depende en gran medida de LMM, su rendimiento puede verse afectado por el rendimiento de LMM.
Falta de validación del rendimiento para diversas condiciones climáticas o situaciones extremas (fuerte sol, lluvia, nieve, etc.).
Existe la posibilidad de que no refleje perfectamente la complejidad del entorno vial real.
Existe una dependencia de la ingeniería rápida, y el diseño rápido óptimo tiene un impacto significativo en el rendimiento.
👍