Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Routage analytique des sous-espaces : fonctionnement des moindres carrés récursifs dans l'apprentissage continu d'un grand modèle de langage

Created by
  • Haebom

Auteur

Kai Tong, Kang Pan, Xiao Zhang, Erli Meng, Run He, Yawen Cui, Nuoyan Guo, Huiping Zhuang

Contour

Dans cet article, nous proposons une technique de routage analytique par sous-espace (ASR) pour résoudre le problème d'apprentissage continu (AC) des modèles de langage à grande échelle (MLH). Les techniques d'apprentissage continu existantes présentent le problème de la réutilisation des données précédentes, ce qui engendre des coûts de calcul supplémentaires ou utilise des modules d'efficacité à paramètre unique, ce qui limite l'assimilation de nouvelles connaissances. L'ASR sépare l'apprentissage au sein du sous-espace des caractéristiques de la couche profonde pour chaque tâche, éliminant ainsi les interférences de connaissances entre les tâches. De plus, il exploite efficacement les connaissances acquises dans différents sous-espaces grâce à un mécanisme de routage analytique. Il apprend un modèle de routeur multitâche par la méthode des moindres carrés récursifs, permettant au routeur de s'adapter dynamiquement aux données entrantes sans accéder aux données passées, d'affecter la tâche en cours à un sous-espace approprié et de garantir la non-oubli des tâches précédemment apprises. Les résultats expérimentaux montrent que l'ASR surmonte efficacement les limites des méthodes existantes en intégrant de manière transparente les nouvelles informations tout en préservant presque parfaitement les connaissances antérieures.

Takeaways, Limitations

Takeaways:
Présentation d'une solution efficace au problème d'apprentissage continu du LLM : résoudre les problèmes d'augmentation des coûts de calcul et d'interférence des connaissances des méthodes existantes Limitations.
Validation de la supériorité de la technique de routage analytique du sous-espace (ASR) : démonstration expérimentale d'une rétention quasi parfaite des connaissances antérieures et d'une intégration fluide des nouvelles informations.
Utilisation efficace des modèles de routeurs multitâches : adaptation dynamique sans accéder aux données passées et garantie de propriétés non oubliées.
Limitations:
Moment de la publication du code : Après l'acceptation du document : Il existe des limites à la vérification immédiate de la reproductibilité.
Absence de description détaillée de la stratégie d'allocation de sous-espace pour des tâches spécifiques : une analyse supplémentaire peut être nécessaire pour déterminer quels aspects peuvent avoir un impact sur les performances de l'ASR.
La généralisabilité à différentes architectures et tâches LLM doit être vérifiée : les résultats expérimentaux dans un environnement limité ne garantissent pas les performances dans d'autres environnements.
👍