Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le Mamba dans le Lama : distiller et accélérer les modèles hybrides

Created by
  • Haebom

Auteur

Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao

Contour

Cet article présente une méthode permettant de transformer des modèles Transformer à grande échelle en RNN linéaires (par exemple, Mamba) pour un déploiement efficace. Nous démontrons qu'il est possible de distiller les connaissances de Transformer en RNN linéaires en réutilisant les pondérations de projection linéaire des couches d'attention de Transformer à l'aide de ressources GPU académiques. Nous construisons un modèle hybride contenant seulement quelques couches d'attention, qui atteint des performances similaires à celles du Transformer original sur les benchmarks de chat et surpasse le modèle hybride open source Mamba entraîné sur des jetons massifs sur les benchmarks de chat et généraux. Nous présentons également un algorithme de décodage prédictif sensible au matériel qui accélère la vitesse d'inférence des modèles Mamba et hybrides. Le modèle le plus performant, issu de Llama3-8B-Instruct, atteint un taux de gain contrôlé par la longueur de 29,61 contre GPT-4 sur AlpacaEval 2 et un taux de gain de 7,35 sur MT-Bench, surpassant ainsi le meilleur modèle RNN linéaire à l'échelle 8B réglé par directive. Le modèle distillé présente une extrapolation de longueur naturelle et atteint une précision quasi parfaite lors d'un test de l'aiguille dans une botte de foin de longueur 20x. Le code et les points de contrôle pré-entraînés sont accessibles au public.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour déployer efficacement des modèles de transformateurs à grande échelle.
Démontrer la faisabilité de la création de modèles linéaires basés sur RNN qui maintiennent ou dépassent les performances de Transformer avec des ressources de calcul limitées.
Accélérer l'inférence avec des algorithmes de décodage prédictif prenant en compte le matériel.
Vérification des performances d'extrapolation de la longueur naturelle du modèle distillé.
Fournit du code source ouvert et des points de contrôle pré-entraînés.
Limitations:
ÉTant donné qu’il s’agit d’un résultat de recherche utilisant des ressources GPU académiques, des recherches supplémentaires sont nécessaires pour une application aux environnements commerciaux réels.
Manque de description détaillée du processus de distillation et de conception du modèle hybride (analyse plus approfondie requise).
Possibilité d’interpréter les résultats de manière biaisée en faveur des évaluations de performance pour des repères spécifiques.
Manque de mention claire des ressources GPU utilisées.
👍