Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SLED : un cadre de décodage LLM spéculatif pour un service de périphérie efficace

Created by
  • Haebom

Auteur

Xiangchen Li, Dimitrios Spatharakis, Saeid Ghafouri, Jiakun Fan, Hans Vandierendonck, Deepu John, Bo Ji, Dimitrios Nikolopoulos

Contour

Dans cet article, nous proposons \acronym, un nouveau framework pour combler le fossé entre la complexité croissante des modèles de langage à grande échelle (LLM) et les capacités de calcul limitées des périphériques. Alors que les stratégies existantes telles que la quantification, l'élagage et l'inférence à distance entraînent une faible précision ou des coûts élevés, \acronym améliore l'efficacité de l'inférence en coordonnant les calculs entre des périphériques hétérogènes. Un périphérique léger génère plusieurs jetons candidats à l'aide de différents modèles, et un serveur partagé vérifie les jetons à l'aide d'un modèle plus précis. Le serveur regroupe les requêtes de vérification provenant de plusieurs périphériques pour améliorer l'efficacité et partage le même supermodèle afin de réduire l'utilisation de la mémoire. Les premières expériences utilisant Jetson Orin Nano, Raspberry Pi 4B/5 et des serveurs périphériques équipés de quatre GPU Nvidia A100 montrent une augmentation de 2,2 fois du débit système, une augmentation de 2,8 fois de la capacité système et une meilleure rentabilité, sans dégradation de la précision du modèle.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre qui améliore considérablement l’efficacité de l’inférence LLM sur des dispositifs périphériques hétérogènes.
Appliquer efficacement les techniques de décodage spéculatif à l’informatique de pointe pour augmenter le débit et la capacité du système.
Réduisez l’utilisation de la mémoire côté serveur et augmentez la rentabilité.
Améliorez les performances tout en maintenant la précision du modèle.
Limitations:
Seuls les premiers résultats expérimentaux sont présentés et des expériences supplémentaires dans divers environnements et modèles sont nécessaires.
\Il y a un manque de description détaillée des détails de mise en œuvre spécifiques et des subtilités du cadre \acronym.
Une analyse de la charge du serveur Edge et de la latence du réseau est requise.
Il y a un manque d’évaluation des performances dans les environnements d’application réels.
👍