Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ChordPrompt : orchestration de la synergie des invites intermodales pour l'apprentissage incrémental multi-domaines dans CLIP

Created by
  • Haebom

Auteur

Zhiyuan Wang, Bokui Chen

Contour

Cet article propose le framework ChordPrompt, qui améliore l'adaptabilité des modèles vision-langage pré-entraînés dans les environnements d'apprentissage continu (AC). Pour surmonter les limites des méthodes d'apprentissage par invites existantes, axées sur l'apprentissage incrémental spécifique à chaque classe et utilisant des invites monomodales, ChordPrompt introduit des invites intermodales exploitant l'interaction entre invites visuelles et textuelles, ainsi que des invites textuelles adaptatives au domaine pour une adaptation continue dans plusieurs domaines. Les résultats expérimentaux obtenus sur des tests d'apprentissage incrémental multi-domaines montrent que ChordPrompt surpasse les méthodes de pointe en termes de généralisation sans apprentissage et de performances en sous-tâches.

Takeaways, Limitations_

Takeaways:
Un nouveau cadre d’apprentissage rapide est présenté, qui est efficace pour les scénarios d’apprentissage incrémental de tâches multi-domaines.
Améliorer les performances d'apprentissage continu des modèles vision-langage en exploitant les invites intermodales
Améliorez l’adaptabilité à divers domaines grâce à des invites de texte adaptatives au domaine.
Atteindre des performances de pointe en matière de généralisation à zéro coup et de performances de sous-tâches.
Limitations:
Une analyse plus approfondie des performances de généralisation du cadre proposé est nécessaire.
Une évaluation de l’évolutivité est nécessaire pour divers modèles et ensembles de données de langage de vision.
Il convient de prendre en compte la possibilité d’un surajustement à des domaines ou des tâches spécifiques.
👍