Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DSDE : Décodage spéculatif dynamique avec stabilité KLD pour une diffusion dans le monde réel

Created by
  • Haebom

Auteur

Mingyu Yang, Jae-Young Choi, Kihyo Moon, Minsung Jang, Eunjoo Jeon

Contour

Cet article souligne que le décodage spéculatif, qui accélère l'inférence de modèles de langage à grande échelle, repose sur une longueur de spéculation fixe, ce qui n'est pas optimal dans les environnements de services par lots à grande échelle avec des requêtes diverses. Par conséquent, cet article explore de nouvelles pistes pour l'adaptation dynamique en étudiant un nouveau type de signal de diagnostic post-test. À cette fin, nous proposons le moteur de décodage spéculatif dynamique (DSDE), un cadre sans apprentissage basé sur deux composants principaux : d'une part, un signal de prédiction basé sur la variance de la divergence de Kullback-Leibler (KLD), qui diagnostique la stabilité locale de la génération ; et d'autre part, une limite supérieure de longueur de spéculation adaptative pour atténuer les problèmes de retard à chaque décodage de séquence. Les résultats expérimentaux démontrent le potentiel de l'utilisation de signaux de stabilité basés sur KLD pour l'adaptation dynamique. Les algorithmes guidés par ces signaux atteignent une latence de bout en bout compétitive avec les meilleurs benchmarks de leur catégorie et présentent une excellente robustesse face à diverses charges de travail. Cette robustesse est particulièrement précieuse dans les régimes de faible capacité, où le maintien de l'utilité diagnostique est difficile pour le signal proposé. En conclusion, ces résultats valident le fait que les signaux postérieurs sont un élément crucial pour la construction de systèmes d’inférence LLM plus robustes et plus intelligents, et mettent en évidence des orientations prometteuses pour les recherches futures sur l’adaptation dynamique de la longueur de spéculation.

Takeaways, Limitations

Takeaways:
Nous démontrons que le décodage spéculatif dynamique utilisant des signaux de stabilité basés sur KLD permet une inférence LLM efficace et robuste dans des environnements de distribution par lots à grande échelle.
Un cadre sans formation (DSDE) utilisant des signaux de diagnostic post-test est présenté, suggérant qu'une amélioration des performances est possible sans recyclage du modèle.
Il maintient des performances robustes, en particulier dans les environnements à faible capacité, augmentant l'adaptabilité à diverses charges de travail.
Limitations:
Des recherches supplémentaires sont nécessaires pour étudier la généralité du signal de stabilité proposé basé sur KLD et son applicabilité à d’autres types de LLM ou de tâches.
Les améliorations des performances dans DSDE peuvent être limitées à des environnements spécifiques et nécessiter une évaluation dans une gamme plus large d’environnements.
Le coût de calcul des calculs KLD peut entraîner des frais supplémentaires, et des méthodes permettant de gérer cela efficacement sont nécessaires.
👍