Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vision sans images : vision par ordinateur de bout en bout à partir de mesures compressives uniques

Created by
  • Haebom

Auteur

Fengpu Pan, Heting Gao, Jiangtao Wen, Yuxing Han

Contour

Cet article présente un nouveau cadre de vision par ordinateur basé sur l'imagerie compressée Snapshot (SCI). Ce cadre utilise un masque binaire pseudo-aléatoire 8x8 pour surmonter les limites des techniques SCI existantes, dont les performances sont médiocres en conditions de faible luminosité et de faible rapport signal/bruit. Au cœur de ce cadre se trouve le codeur automatique de débruitage compressif (CompDAE), basé sur l'architecture STFormer, conçu pour exécuter directement des tâches ultérieures telles que la détection des contours et l'estimation de la profondeur, sans reconstruction d'image. CompDAE intègre une stratégie d'apprentissage à débit contraint, inspirée de BackSlash, pour générer des modèles compressibles et fournit une plateforme multitâche intégrée utilisant un décodeur léger et spécifique à chaque tâche et un codeur partagé. Les résultats expérimentaux sur divers jeux de données démontrent que CompDAE atteint des performances de pointe avec une complexité considérablement réduite, notamment en conditions de très faible luminosité où les pipelines CMOS et SCI existants sont défaillants.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre de vision par ordinateur basé sur SCI qui démontre des performances supérieures dans des conditions de faible luminosité et de faible rapport signal/bruit.
Utilisation de masques de petite taille faciles à mettre en œuvre dans le matériel.
Les opérations ultérieures (détection des contours, estimation de la profondeur, etc.) peuvent être effectuées directement sans reconstruction d'image.
Fournir une plate-forme intégrée pour le multitâche.
Obtenir des performances de pointe avec une complexité moindre par rapport aux méthodes existantes.
Limitations:
Perte de résolution possible en raison de l'utilisation d'un masque de taille 8x8.
Seuls les résultats expérimentaux pour des ensembles de données spécifiques sont présentés, la vérification des performances de généralisation est donc nécessaire.
Des explications supplémentaires sont nécessaires concernant les spécificités et l’efficacité des stratégies d’entraînement à taux limité inspirées de BackSlash.
👍