Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Généralisation des modèles vision-langage à de nouveaux domaines : une étude approfondie

Created by
  • Haebom

Auteur

Xinyao Li, Jingjing Li, Fengling Li, Lei Zhu, Yang Yang, Heng Tao Shen

Contour

Cet article aborde le problème de généralisation des modèles de pré-entraînement vision-langage (VLM). Les VLM utilisant des données web offrent d'excellentes performances en mode zéro-coup, mais présentent des limites : leurs performances se dégradent dans des domaines spécifiques ou des tâches spécialisées. Alors que des recherches actives sont menées pour résoudre ce problème, cet article analyse en détail les méthodes permettant de transférer ou de généraliser les connaissances des VLM à diverses sous-tâches. En nous basant sur la structure des VLM, nous les classons en méthodes basées sur les invites, les paramètres et les caractéristiques, et nous analysons les différences et les caractéristiques de chaque méthode en fonction du contexte d'apprentissage par transfert (TL). De plus, nous présentons un benchmark pour la généralisation des VLM, comparons et analysons les performances des méthodes examinées, et discutons de la relation et des différences entre les VLM et les modèles multimodaux à grande échelle (MLLM) récemment apparus. En conclusion, cet article passe en revue les dernières tendances de la recherche vision-langage du point de vue de la généralisation et suggère l'état actuel et les orientations futures de la recherche.

Takeaways, Limitations

Takeaways:
Nous fournissons une analyse complète du problème de généralisation des VLM.
Nous classons et comparons systématiquement diverses méthodologies de généralisation, notamment celles basées sur des invites, des paramètres et des fonctionnalités.
Nous présentons des repères clés et des résultats de comparaison des performances pour la généralisation VLM.
Nous analysons la relation et les différences entre les VLM et les MLLM et suggérons des orientations de recherche futures.
Limitations:
Une validation supplémentaire peut être nécessaire sur l’objectivité et la généralisabilité du système de classification et de l’analyse présentés dans l’article.
Des mises à jour continues sont nécessaires pour refléter les dernières tendances de la recherche.
Il peut y avoir un manque de suggestions spécifiques pour améliorer les performances de généralisation pour des domaines ou des tâches spécifiques.
👍