Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SpecDec++ : Optimisation du décodage spéculatif grâce à des longueurs de candidats adaptatives

Created by
  • Haebom

Auteur

Kaixuan Huang, Xudong Guo, Mengdi Wang

Contour

Dans cet article, nous proposons SpecDec++, une technique de décodage spéculatif améliorée permettant de réduire la latence d'inférence des modèles de langage à grande échelle. Le décodage spéculatif existant présente des limites pour atteindre des performances optimales, car il utilise une heuristique simple pour déterminer le nombre de jetons candidats (K). Dans cet article, nous formulons le problème de la sélection de K comme processus de décision markovien et prouvons théoriquement que la politique optimale prend la forme d'une politique de seuil. Sur cette base, nous proposons SpecDec++, qui détermine dynamiquement K en ajoutant une tête de prédiction d'acceptation prédisant l'acceptabilité des jetons candidats. Appliqué aux modèles Llama-2-chat 7B et 70B, nous obtenons des accélérations de 2,04x, 2,26x et 2,23x sur les jeux de données Alpaca, GSM8K et HumanEval, respectivement.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour optimiser la longueur du jeton candidat (K) pour le décodage spéculatif en utilisant les processus de décision de Markov.
Démonstration des performances efficaces de l'algorithme SpecDec++ avec ajustement dynamique de K via une tête de prédiction réceptive (accélération moyenne de plus de 2x sur le modèle Llama-2-chat).
Assurer la reproductibilité et l’extensibilité de la recherche grâce à la divulgation du code source ouvert.
Limitations:
L'efficacité de la méthode proposée est limitée à un modèle spécifique (Llama-2-chat) et à un ensemble de données, et des recherches supplémentaires sont nécessaires pour généraliser les performances à d'autres modèles ou ensembles de données.
Il convient de prendre en compte les coûts de calcul supplémentaires et les données nécessaires à la formation de la tête de prédiction réceptive.
Des recherches supplémentaires pourraient être nécessaires pour déterminer la valeur optimale du seuil.
👍