Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Intégration multi-invites adaptative au contexte avec de grands modèles de langage pour l'alignement vision-langage

Created by
  • Haebom

Auteur

Dahun Kim, Anelia Angelova

Contour

Cet article propose l'intégration multi-invites adaptative au contexte, une nouvelle méthode d'enrichissement des représentations sémantiques dans l'apprentissage contrastif du langage visuel. Contrairement aux modèles CLIP existants qui reposent sur une seule intégration textuelle, cette étude introduit plusieurs invites structurées, chacune contenant des jetons adaptatifs uniques capturant différents aspects sémantiques du texte d'entrée. Dans le cadre CLIP, nous utilisons un LLM pré-entraîné comme encodeur de texte pour traiter conjointement toutes les invites en une seule passe. Les intégrations d'invites résultantes sont combinées en une représentation textuelle unifiée, permettant un alignement sémantique plus riche avec les caractéristiques visuelles. Afin d'améliorer encore la diversité sémantique et la qualité de la représentation, nous intégrons les pertes de régularisation de la diversité et les pertes de reconnaissance de négation afin de favoriser la spécialisation entre les invites et d'améliorer la discrimination contrastive. Notre méthode permet d'obtenir des gains de performance constants lors des tests de conversion image-texte et vidéo-texte.

Takeaways, Limitations_

Takeaways:
Nous démontrons que l’utilisation de plusieurs invites peut améliorer la richesse des représentations sémantiques dans l’apprentissage contrastif visuo-verbal.
Nous présentons une méthode permettant d’utiliser efficacement les LLM pré-entraînés pour capturer divers aspects sémantiques.
Il permet d’améliorer les performances grâce à la perte de régulation de la diversité et à la perte de reconnaissance négative.
Nous démontrons expérimentalement des améliorations de performances dans les tâches de récupération d’image en texte et de vidéo en texte.
Limitations:
La méthode proposée peut être plus coûteuse en termes de calcul que les méthodes existantes (traitement de plusieurs invites).
Il peut y avoir certaines dépendances sur des LLM spécifiques.
Des recherches supplémentaires pourraient être nécessaires pour déterminer les paramètres d’hyperparamètres optimaux pour la perte de régularisation de la diversité et la perte de reconnaissance de négation.
En raison des limites du benchmark utilisé, une validation supplémentaire des performances de généralisation peut être nécessaire.
👍