Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Méthode d'échantillonnage par incorporation d'images pour divers sous-titres

Created by
  • Haebom

Auteur

Sania Waheed, Na Min An

Contour

Cet article présente un nouveau cadre qui améliore les performances de génération de légendes d'images en utilisant des modèles de langage visuel (VLM) relativement petits (par exemple, des BLIP) plutôt que des modèles de langage visuel (VLM) de pointe, coûteux en calcul. Pour résoudre le problème selon lequel les petits VLM existants se concentrent sur les descriptions de scènes de grande dimension et négligent les détails, nous utilisons la segmentation structurée pour générer des représentations hiérarchiques qui capturent les informations sémantiques globales et locales. Nous obtenons une cohérence image-légende, une intégrité sémantique et une diversité comparables à celles de modèles plus grands, sans entraînement supplémentaire. L'évaluation sur les jeux de données MSCOCO, Flickr30k et Nocaps a donné des scores Div-2 de 0,735, 0,750 et 0,748 respectivement, démontrant une pertinence et une intégrité sémantique élevées pour les légendes générées par l'homme.

Takeaways, Limitations

Takeaways:
Nous démontrons que la génération de légendes d’images haute performance est possible même dans des environnements avec des ressources informatiques limitées (par exemple, appareils mobiles, technologies d’assistance).
Nous présentons une méthode efficace pour améliorer considérablement les performances des petits VLM sans formation de modèle supplémentaire.
Nous démontrons qu’une technique de génération de représentation hiérarchique utilisant la segmentation structurelle est efficace pour augmenter la diversité et le contenu informatif des légendes d’images.
Limitations:
Le cadre proposé pourrait dépendre d'un petit VLM spécifique (BLIP). La généralisation des performances à d'autres petits VLM nécessite des recherches supplémentaires.
La précision de la segmentation structurelle peut avoir un impact sur la qualité de la légende finale. Améliorer les performances de la segmentation peut contribuer à des améliorations futures.
En plus du score Div-2 utilisé dans cet article, une analyse de performance multidimensionnelle peut être nécessaire en ajoutant d’autres mesures d’évaluation.
👍