Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉLagage structuré en deux étapes basé sur la régularisation pour les LLM

Created by
  • Haebom

Auteur

Mingkuan Feng, Jinyang Wu, Siyuan Liu, Shuai Zhang, Ruihan Jin, Feihu Che, Pengpeng Shao, Zhengqi Wen, Jianhua Tao

Contour

Dans cet article, nous proposons une nouvelle méthode d'élagage structurel, l'élagage structuré basé sur la régularisation en deux étapes (TRSP), pour un déploiement efficace des modèles de langage à grande échelle (LLM). Contrairement aux méthodes existantes, TRSP réduit la taille du modèle tout en préservant les informations importantes grâce à un processus de régularisation en deux étapes, au lieu de supprimer directement les paramètres inutiles. Lors de la première étape, la sortie de chaque couche de transformateur est multipliée par un poids apprenable, et la norme $\ell_1$ est ajoutée comme terme de régularisation pour apprendre les poids. Lors de la deuxième étape, une régularisation supplémentaire est appliquée à la différence entre l'entrée et la sortie de la couche de faible poids afin de déplacer l'information vers la couche préservée. Les résultats expérimentaux montrent que TRSP surpasse les méthodes robustes d'élagage structurel par couche existantes sans réapprentissage et offre un gain de temps significatif.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode d’élagage structurel pour une distribution efficace de LLM est présentée.
Maintient des performances supérieures aux méthodes existantes sans recyclage.
Des accélérations significatives sont obtenues grâce à une taille couche par couche.
Préservation efficace des informations via une régularisation en deux étapes basée sur la norme $\ell_1$.
Limitations:
Les performances de la méthode proposée peuvent dépendre d’architectures LLM ou d’ensembles de données spécifiques.
Une analyse comparative plus poussée avec d’autres méthodes d’élagage ou techniques d’optimisation peut être nécessaire.
D'autres expériences sont nécessaires pour étudier les performances et l'efficacité lorsqu'elles sont appliquées à de très grands LLM.
Des recherches supplémentaires sont nécessaires sur le réglage des hyperparamètres du processus de régularisation en deux étapes.
👍