Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LoRA-XS : adaptation de bas rang avec un nombre extrêmement réduit de paramètres

Created by
  • Haebom

Auteur

Klaudia Ba{\l}azy, Mohammadreza Banaei, Karl Aberer, Jacek Tabor

Contour

Cet article présente LoRA-XS, une nouvelle méthode de réglage fin optimisée par paramètres, qui vise à pallier les limitations de LoRA, notamment en termes de stockage et de calcul lors du déploiement de modules pour diverses tâches ou utilisateurs. LoRA-XS réduit considérablement le nombre de paramètres entraînables en intégrant de petites matrices de pondération entraînables parmi des matrices fixes de rang faible obtenues par décomposition en valeurs singulières (SVD) de pondérations pré-entraînées. Comparé à LoRA dans un modèle 7B, il réduit les besoins en stockage de plus de 100 fois et s'adapte d'un paramètre par module à n'importe quelle taille. Les évaluations sur GLUE, GSM8K, MATH et les benchmarks d'inférence de bon sens démontrent que LoRA-XS offre une précision égale ou supérieure à celle de LoRA et VeRA, tout en offrant une efficacité paramétrique supérieure. Des expériences supplémentaires soulignant l'importance des vecteurs singuliers démontrent l'utilité de LoRA-XS comme solution robuste et optimisée en stockage pour la mise à l'échelle et la personnalisation de modèles linguistiques à grande échelle.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode de réglage fin, LoRA-XS, qui répond efficacement aux problèmes de stockage et de coût de calcul de LoRA.
Le modèle 7B permet d'économiser plus de 100 fois l'espace de stockage par rapport à LoRA.
Nombre flexible de paramètres pouvant être formés (d'un paramètre par module à une taille arbitraire).
Atteint une précision équivalente ou supérieure à celle de LoRA et VeRA sur les benchmarks GLUE, GSM8K, MATH et de raisonnement de bon sens.
Démonstration expérimentale de l'importance des vecteurs singuliers dans les poids des transformateurs.
Fournir une solution efficace pour la mise à l'échelle et la personnalisation de modèles linguistiques à grande échelle.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des résultats expérimentaux présentés dans cet article.
Des expérimentations plus poussées avec différentes tailles de modèles et tâches sont nécessaires.
Il est nécessaire d’examiner la possibilité que les améliorations de performances de LoRA-XS puissent être biaisées en faveur d’ensembles de données ou de tâches spécifiques.
👍