Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip
Created by
Haebom
Auteur
Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung
Contour
Cet article aborde le défi de la compréhension des images marines, entravée par la nature dynamique du milieu marin, les mouvements de caméra et la complexité des scènes sous-marines. Les jeux de données de légendes d'images existants se concentrent souvent sur des domaines généraux ou centrés sur l'humain, ne parvenant pas à généraliser à la complexité du milieu marin et à fournir des informations sur la vie marine. Pour pallier ces limitations, cet article propose un pipeline de sous-titrage d'images marines orienté objet en deux étapes. Nous présentons un benchmark complet de compréhension d'images exploitant trois éléments : image, texte et masques de segmentation, pour faciliter la justification visuelle et la génération de légendes. Cela améliore la compréhension et l'analyse des images marines, ainsi que leur génération. De plus, nous soulignons l'efficacité de la segmentation d'images pour détecter les transitions d'objets significatives entre les scènes, enrichissant considérablement la sémantique du contenu des légendes. Le jeu de données et le code sont accessibles au public à l'adresse https://msc.hkustvgd.com .