Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ASPD : Déverrouiller le décodage série-parallèle adaptatif en explorant le parallélisme intrinsèque dans les LLM

Created by
  • Haebom

Auteur

Keyu Chen, Zhifeng Shen, Daohai Yu, Haoqian Wu, Wei Wen, Jianfeng He, Ruizhi Qiao, Xing Sun

Contour

Cet article se concentre sur le potentiel de traitement parallèle du décodage autorégressif pour résoudre le problème de latence d'inférence des modèles de langage à grande échelle (LLM). Nous proposons une technique de décodage série-parallèle adaptatif (ASPD) qui exploite le parallélisme intrinsèque dans la sortie des modèles autorégressifs pour effectuer un décodage parallèle. ASPD se compose d'un pipeline qui extrait et valide automatiquement les structures de données parallélisables et d'un moteur de décodage hybride qui permet une commutation transparente entre les modes de décodage série et parallèle. Les résultats expérimentaux sur diverses tâches (tâches générales, génération de recherche augmentée et inférence mathématique) démontrent que ASPD surpasse les méthodes existantes en termes d'efficacité et d'efficience, atteignant une accélération moyenne de 1,85x (jusqu'à 3,19x) sur le banc Vicuna tout en maintenant une dégradation de la qualité de réponse inférieure à 1 %.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle technique de décodage parallèle qui améliore considérablement la vitesse d’inférence de LLM.
Améliorations substantielles des performances grâce à l'extraction automatisée de structures parallèles et à des mécanismes de décodage parallèle efficaces.
ÉLargir les possibilités de déploiement LLM pour les applications sensibles à la latence telles que les robots de service client alimentés par l'IA et les moteurs de recherche de réponses.
Validation de l'efficacité et de l'efficience grâce aux résultats de l'expérience Vicuna Bench.
Limitations:
Des recherches supplémentaires sont nécessaires pour évaluer les performances de généralisation de la technique ASPD proposée et son applicabilité à diverses architectures LLM.
Des recherches continues sont nécessaires pour améliorer la précision et l’efficacité de l’extraction automatique de structures pouvant être traitées en parallèle.
Les résultats sont basés sur un benchmark spécifique (Vicuna Bench) et une vérification des performances dans d'autres benchmarks ou environnements d'application réels est requise.
👍