Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La parcimonie surpasse les projections de rang inférieur dans l'adaptation à quelques coups

Created by
  • Haebom

Auteur

Nairouz Mrabah, Nicolas Richet, Ismail Ben Ayed, Eric Granger

Contour

Cet article propose un nouveau cadre d'optimisation parcimonieuse (SO) pour répondre aux contraintes de surapprentissage et de calcul rencontrées lors de l'adaptation des modèles vision-langage (VLM) à de nouveaux domaines. Contrairement aux méthodes de reparamétrisation basse dimensionnelle existantes, SO exploite la parcimonie haute dimensionnelle des paramètres pour mettre à jour dynamiquement un nombre restreint de paramètres. Plus précisément, il introduit deux paradigmes : « parsité locale et densité globale » et « aléatoire local et importance globale » pour atténuer le surapprentissage et garantir une adaptation stable dans les environnements à faible volume de données. Les résultats expérimentaux sur 11 jeux de données différents démontrent que SO atteint des performances d'adaptation à quelques coups de pointe tout en réduisant la charge mémoire.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre SO efficace pour améliorer les performances d'adaptation de domaine de VLM dans les environnements à faible quantité de données.
Utilisation efficace de la mémoire et coûts de calcul réduits par rapport aux méthodes de faible dimension existantes.
Présentation d'un nouveau paradigme de « rareté locale et densité globale » et de « caractère aléatoire local et importance globale ».
Atteindre des performances de pointe sur des ensembles de données diversifiés.
Limitations:
Manque de description détaillée du réglage des hyperparamètres du cadre SO proposé.
La vérification des performances de généralisation est nécessaire pour diverses architectures VLM.
Manque d’applicabilité et d’évaluation des performances pour les ensembles de données à grande échelle.
👍