Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Created by
  • Haebom

Auteur

Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung

Contour

Cet article aborde le défi de la compréhension des images marines, entravée par la nature dynamique du milieu marin, les mouvements de caméra et la complexité des scènes sous-marines. Les jeux de données de légendes d'images existants se concentrent souvent sur des domaines généraux ou centrés sur l'humain, ne parvenant pas à généraliser à la complexité du milieu marin et à fournir des informations sur la vie marine. Pour pallier ces limitations, cet article propose un pipeline de sous-titrage d'images marines orienté objet en deux étapes. Nous présentons un benchmark complet de compréhension d'images exploitant trois éléments : image, texte et masques de segmentation, pour faciliter la justification visuelle et la génération de légendes. Cela améliore la compréhension et l'analyse des images marines, ainsi que leur génération. De plus, nous soulignons l'efficacité de la segmentation d'images pour détecter les transitions d'objets significatives entre les scènes, enrichissant considérablement la sémantique du contenu des légendes. Le jeu de données et le code sont accessibles au public à l'adresse https://msc.hkustvgd.com .

Takeaways, Limitations

Takeaways:
Fournir un nouvel ensemble de données de référence pour comprendre l’imagerie océanique.
Un pipeline de sous-titrage d'images océaniques orienté objet en deux étapes est proposé.
Présentation de l'efficacité de la détection des transitions d'objets importants dans les changements de scène grâce à la segmentation d'image.
Contribuer à la compréhension et à l’analyse de l’imagerie marine et améliorer la production d’images marines.
Augmenter la reproductibilité et l’évolutivité de la recherche grâce à des ensembles de données et des codes ouverts.
Limitations:
Un examen plus approfondi de la taille et de la diversité de l’ensemble de données est nécessaire.
Une évaluation plus approfondie des performances de généralisation du pipeline proposé est nécessaire.
Biais potentiel en faveur d’environnements marins ou de types d’objets spécifiques.
Des recherches supplémentaires sont nécessaires sur l’applicabilité et la praticité dans les environnements marins réels.
👍