Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Adaptation bayésienne évolutive de bas rang de grands modèles de langage via l'inférence de sous-espace variationnel stochastique

Created by
  • Haebom

Auteur

Colin Samplawski, Adam D. Cobb, Manoj Acharya, Ramneet Kaur, Susmit Jha

Contour

Dans cet article, nous présentons ScalaBL, une méthode bayésienne d'adaptation évolutive en basse dimension pour la quantification de l'incertitude dans les modèles de langage à grande échelle (MLH). Les approches bayésiennes existantes basées sur l'apprentissage profond effectuent l'inférence sur les paramètres d'adaptation en basse dimension (LoRA) d'un modèle affiné, mais présentent le problème que les paramètres supplémentaires augmentent avec la taille du LMH. ScalaBL réutilise les paramètres LoRA comme matrices de projection pour effectuer l'inférence bayésienne dans un sous-espace r-dimensionnel et mappe les échantillons de ce sous-espace à l'espace de pondération complet du LMH. Elle apprend tous les paramètres par inférence variationnelle probabiliste, atteignant des performances de pointe avec beaucoup moins de paramètres supplémentaires (environ 1 000) que les méthodes existantes. De plus, nous démontrons qu'elle est évolutive vers le plus grand LMH bayésien à ce jour, avec quatre fois plus de paramètres de base que les travaux précédents.

Takeaways, Limitations

Takeaways:
Présentation d'une solution efficace et évolutive au problème de quantification de l'incertitude dans LLM.
Surmonter les limites d’évolutivité des approches LLM bayésiennes existantes.
Obtenir des performances de pointe avec un minimum de paramètres supplémentaires.
Démontrer la faisabilité d'une formation LLM bayésienne à grande échelle.
Limitations:
Les performances de la méthode proposée peuvent dépendre de la dimension (r) d'un sous-espace spécifique. Trouver la valeur optimale de r est une tâche importante.
Des applications pratiques supplémentaires et des évaluations de performance dans des domaines réels à haut risque (conduite autonome, soins de santé) sont nécessaires.
Une vérification des performances de généralisation pour différentes architectures et tailles LLM est requise.
👍