Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De l'holistique au localisé : adaptateurs locaux améliorés pour un réglage précis de l'instruction visuelle efficace

Created by
  • Haebom

Auteur

Pengkun Jiao, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang

Contour

Dans cet article, nous proposons une méthode efficace de réglage fin des instructions visuelles (EVIT) qui minimise les coûts de calcul tout en améliorant l'adaptabilité à diverses sous-tâches. Pour résoudre le problème de collision de données des EVIT existantes, nous présentons un cadre d'adaptation à faible rang double (Dual-LoRA). Dual-LoRA améliore la capacité de l'adaptateur en utilisant deux sous-espaces : un espace de compétences qui conserve les connaissances globales et un espace de tâches rectifié par rang qui active les connaissances localement. De plus, nous introduisons un module d'amélioration des repères visuels (VCE) qui enrichit les détails locaux des projections de langage visuel. Dual-LoRA et VCE sont économes en mémoire et en temps, et leur efficacité est vérifiée sur diverses sous-tâches et sur des benchmarks MLLM courants.

Takeaways, Limitations

Takeaways:
Présentation d'un framework Dual-LoRA qui résout efficacement le problème de collision de données des EVIT existants.
Obtenir une vitesse d'inférence plus rapide que les méthodes existantes basées sur LoRA de manière efficace en termes de mémoire et de temps.
Vérifiez expérimentalement les améliorations de performances sur diverses sous-tâches et benchmarks MLLM.
Améliorez votre utilisation de l'information visuelle grâce aux modules VCE.
Limitations:
L’efficacité de la méthode présentée peut être limitée à des MLLM et sous-tâches spécifiques.
Une évaluation supplémentaire des performances de généralisation pour des sous-tâches plus complexes et plus diverses est nécessaire.
Les résultats expérimentaux sur de grands ensembles de données peuvent faire défaut.
👍