Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip
Created by
Haebom
Auteur
Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung
Contour
L'imagerie marine présente des défis majeurs pour la compréhension des images en raison de la nature dynamique des objets marins et de leur environnement, des mouvements de caméra et de la complexité des scènes sous-marines. Les jeux de données de légendes d'images existants, axés sur des domaines généraux ou centrés sur l'humain, ne parviennent souvent pas à généraliser la complexité de l'environnement marin et à fournir des informations sur la vie marine. Pour pallier ces limitations, cet article propose un pipeline de légendes d'images marines orienté objet en deux étapes. Nous présentons un benchmark complet de compréhension des images exploitant trois éléments (image, texte et masques de segmentation) pour faciliter la justification visuelle et la génération de légendes, améliorant ainsi la compréhension et l'analyse des images marines, ainsi que leur génération. De plus, nous soulignons l'efficacité de la segmentation d'images pour détecter les transitions d'objets significatives lors des changements de scène, enrichissant ainsi considérablement la sémantique du contenu des légendes. Le jeu de données et le code sont accessibles au public dans https://msc.hkustvgd.com .