Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Adaptation transférable du modèle vision-langage, indépendant du modèle, pour une généralisation efficace du faible au fort

Created by
  • Haebom

Auteur

Jihwan Park, chanson Taehoon, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

Contour

Cet article propose TransMiter, un adaptateur léger pour un transfert adaptatif efficace des connaissances des modèles vision-langage (VLM). TransMiter comble les lacunes entre les VLM pré-entraînés et affinés grâce à une approche d'apprentissage non supervisé, transférant les connaissances sans rétropropagation. Composé d'un nombre réduit de couches, il présente un coût d'inférence minimal et l'ajout d'une petite quantité de données étiquetées améliore les performances par rapport au modèle robuste et affiné. Les résultats expérimentaux démontrent que TransMiter transfère efficacement les connaissances adaptatives entre des VLM de tailles et d'architectures variées, tout en préservant les capacités de généralisation.

Takeaways, Limitations

Takeaways:
Une méthode efficace permettant le transfert adaptatif de connaissances dans VLM sans rétropropagation est présentée.
Minimisez les coûts d’inférence grâce à une conception d’adaptateur légère.
Améliorez les performances en exploitant de petites quantités de données étiquetées.
Maintenir d'excellentes performances et une capacité de généralisation sur des VLM de différentes tailles et architectures.
Limitations:
Les améliorations des performances de TransMiter peuvent être limitées à des ensembles de données ou à des tâches spécifiques.
Dégradation possible des performances en raison des limites des méthodes d’apprentissage non supervisées.
Une validation supplémentaire des performances de généralisation sur différentes architectures VLM est nécessaire.
👍