Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Gumiho : une architecture hybride pour prioriser les premiers jetons dans le décodage spéculatif

Created by
  • Haebom

Auteur

Jinze Li, Yixing Xu, Haiduo Huang, Xuanwu Yin, Dong Li, Edith CH Ngai, Emad Barsoum

Contour

Dans cet article, nous proposons une méthode de décodage spéculatif (SPD) pour accélérer le processus de génération de jetons autorégressifs des modèles de langage à grande échelle (LLM). Les méthodes SPD existantes utilisent des modèles préliminaires à têtes multiples pour prédire les futures séquences de jetons, mais elles présentent des limites : elles traitent tous les jetons de manière égale et s'appuient sur une seule méthode de génération (série ou parallèle). Dans cet article, nous prouvons théoriquement que les premiers jetons sont plus importants que les derniers, et sur cette base, nous proposons Gumiho, un modèle hybride combinant des têtes série et parallèle. Gumiho utilise des têtes série avec une architecture Transformer sophistiquée pour améliorer la précision des premiers jetons, et plusieurs têtes MLP légères fonctionnant en parallèle pour améliorer l'efficacité. Nous obtenons une amélioration globale des performances en attribuant des structures de modèle plus avancées et des temps d'exécution plus longs aux premières têtes. Les résultats expérimentaux montrent que la méthode proposée surpasse les méthodes existantes.

Takeaways, Limitations_

Takeaways : Démontrer expérimentalement l'efficacité d'une approche SPD hybride prenant en compte l'importance des jetons initiaux. Une nouvelle méthode est présentée, combinant les avantages du traitement série et parallèle pour améliorer la vitesse et la précision de la génération de jetons dans LLM. Le modèle Gumiho surpasse la méthode SPD conventionnelle.
Limitations: Les gains de performance du modèle Gumiho pourraient être limités à certains LLM et ensembles de données. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la preuve théorique de l'importance des jetons initiaux. Des expériences supplémentaires sur divers LLM et tâches sont nécessaires.
👍