Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les LLM de diffusion peuvent effectuer des inférences plus rapides que la réalité augmentée grâce au forçage de diffusion discret

Created by
  • Haebom

Auteur

Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng

Contour

Cet article présente le forçage de diffusion discret (D2F), une nouvelle stratégie visant à améliorer la vitesse d'inférence des modèles de langage à grande échelle de diffusion (dLLM). Les dLLM open source existants peinent à surpasser les LLM autorégressifs (AR) de taille similaire en termes de vitesse d'inférence. D2F surmonte cette limitation en générant des autorégressions au niveau des blocs et en permettant la prédiction de jetons ultérieurs sans compléter les blocs précédents. Cela améliore efficacement les dLLM existants en un paradigme hybride AR-diffusion. D2F est implémenté via un processus de distillation asymétrique basé sur un dLLM pré-entraîné, et nous proposons également un algorithme de décodage parallèle en pipeline qui permet un compromis entre efficacité et efficience. Les résultats expérimentaux montrent que le dLLM D2F atteint des vitesses d'inférence 2,5 fois supérieures à celles de LLaMA3 et Qwen2.5 sur GSM8K, et plus de 50 fois supérieures à celles des dLLM existants tels que LLaDA et Dream. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Une stratégie D2F est proposée pour améliorer considérablement la vitesse d'inférence de dLLM.
Prouver la faisabilité d'une inférence efficace grâce à un paradigme hybride AR-diffusion.
Une proposition pour une implémentation basée sur la distillation asymétrique et un algorithme de décodage parallèle en pipeline.
Des améliorations significatives de la vitesse par rapport aux modèles existants tels que LLaMA3, Qwen2.5, LLaDA et Dream ont été confirmées.
Améliorer l’évolutivité de la recherche grâce à la divulgation de code source ouvert.
Limitations:
Seuls les résultats d'évaluation pour l'ensemble de données GSM8K sont présentés, de sorte que les performances de généralisation pour d'autres ensembles de données nécessitent une vérification supplémentaire.
L'efficacité de D2F peut dépendre de l'architecture dLLM spécifique.
Des recherches supplémentaires sont nécessaires sur les paramètres optimaux pour les algorithmes de décodage parallèle de pipeline.
Bien que des améliorations de vitesse aient été obtenues sans compromettre la qualité de sortie, une analyse plus approfondie est nécessaire pour traiter le risque de dégradation de la qualité.
👍