Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Visión sin imágenes: Visión artificial de extremo a extremo a partir de mediciones de compresión individuales

Created by
  • Haebom

Autor

Fengpu Pan, Heting Gao, Jiangtao Wen, Yuxing Han

Describir

Este artículo presenta un novedoso marco de visión artificial basado en Imágenes Comprimidas Instantáneas (SCI). Este marco utiliza una máscara binaria pseudoaleatoria de 8x8 para superar las limitaciones de las técnicas SCI existentes, que presentan un rendimiento deficiente en condiciones de poca luz y baja relación señal-ruido (SNR). Su núcleo es el Autocodificador de Eliminación de Ruido Compresivo (CompDAE), basado en la arquitectura STFormer, diseñado para realizar directamente tareas posteriores, como la detección de bordes y la estimación de profundidad, sin reconstrucción de imágenes. CompDAE integra una estrategia de entrenamiento con restricción de velocidad inspirada en BackSlash para generar modelos compresibles y proporciona una plataforma multitarea integrada que utiliza un decodificador ligero específico para cada tarea y un codificador compartido. Los resultados experimentales en diversos conjuntos de datos demuestran que CompDAE alcanza un rendimiento de vanguardia con una complejidad significativamente reducida, especialmente en condiciones de luz ultrabaja, donde las tuberías CMOS y SCI existentes fallan.

Takeaways, Limitations

Takeaways:
Presentamos un novedoso marco de visión por computadora basado en SCI que demuestra un rendimiento superior en condiciones de poca luz y baja relación señal/ruido (SNR).
Utilización de máscaras de pequeño tamaño y fácil implementación en hardware.
Las operaciones posteriores (detección de bordes, estimación de profundidad, etc.) se pueden realizar directamente sin reconstrucción de la imagen.
Proporcionar una plataforma integrada para realizar múltiples tareas.
Lograr un rendimiento de vanguardia con menor complejidad en comparación con los métodos existentes.
Limitations:
Posible pérdida de resolución debido al uso de una máscara de tamaño 8x8.
Sólo se presentan resultados experimentales para conjuntos de datos específicos, por lo que es necesaria la verificación del rendimiento de generalización.
Se necesita más explicación sobre los detalles y la eficacia de las estrategias de entrenamiento con velocidad limitada inspiradas en BackSlash.
👍