Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Created by
  • Haebom

Auteur

Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung

Contour

L'imagerie marine présente des défis majeurs pour la compréhension des images en raison de la nature dynamique des objets marins et de leur environnement, des mouvements de caméra et de la complexité des scènes sous-marines. Les jeux de données de légendes d'images existants, axés sur des domaines généraux ou centrés sur l'humain, ne parviennent souvent pas à généraliser la complexité de l'environnement marin et à fournir des informations sur la vie marine. Pour pallier ces limitations, cet article propose un pipeline de légendes d'images marines orienté objet en deux étapes. Nous présentons un benchmark complet de compréhension des images exploitant trois éléments (image, texte et masques de segmentation) pour faciliter la justification visuelle et la génération de légendes, améliorant ainsi la compréhension et l'analyse des images marines, ainsi que leur génération. De plus, nous soulignons l'efficacité de la segmentation d'images pour détecter les transitions d'objets significatives lors des changements de scène, enrichissant ainsi considérablement la sémantique du contenu des légendes. Le jeu de données et le code sont accessibles au public dans https://msc.hkustvgd.com .

Takeaways, Limitations

Takeaways:
Un nouvel ensemble de données de référence et un pipeline de sous-titrage en deux étapes pour comprendre l'imagerie océanique sont présentés.
Détection des transitions d'objets importantes et enrichissement du sens des légendes à l'aide de la segmentation d'images
Contribuer à améliorer la compréhension et l’analyse de l’imagerie marine et la création d’images marines.
Partager la recherche et assurer la reproductibilité grâce à des ensembles de données et du code ouverts.
Limitations:
Un examen plus approfondi est nécessaire concernant la taille et la diversité de l’ensemble de données de référence proposé.
Les performances de généralisation du pipeline proposé et son applicabilité à d’autres environnements marins doivent être évaluées.
Des recherches supplémentaires sont nécessaires pour déterminer si ce modèle reflète pleinement la complexité de l’environnement marin actuel.
👍