Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

Created by
  • Haebom

Auteur

Runpeng Yu, Qi Li, Xinchao Wang

Contour

Cet article présente une étude systématique du modèle de langage à diffusion discrète (dLLM) et du modèle de langage multimodal à diffusion discrète (dMLLM). Contrairement aux modèles autorégressifs (AR), dLLM et dMLLM utilisent un paradigme de décodage parallèle multi-jetons qui utilise l'attention totale et une stratégie de génération basée sur le débruitage. Ce paradigme permet naturellement la génération parallèle, un contrôle de sortie précis et une reconnaissance dynamique, des fonctionnalités auparavant difficiles à obtenir avec les modèles AR. De nombreux dLLM propriétaires à l'échelle industrielle et de nombreux dLLM académiques open source ont démontré des performances comparables à celles des modèles autorégressifs, avec des vitesses d'inférence jusqu'à un ordre de grandeur plus rapides. Ces avancées positionnent les modèles de diffusion discrète comme des alternatives prometteuses aux approches autorégressives traditionnelles pour l'intelligence. Cet article présente un aperçu complet de la recherche dans les domaines dLLM et dMLLM. Nous retraçons l'évolution historique de dLLM et dMLLM, formalisons leur cadre mathématique sous-jacent et catégorisons les modèles représentatifs. Nous analysons également les technologies clés pour l'apprentissage et l'inférence, et résumons les applications émergentes dans des domaines tels que le langage, la vision-langage et la biologie. Enfin, nous discutons des orientations futures de la recherche et du déploiement. Des articles connexes sont disponibles à l'adresse https://github.com/LiQiiiii/Awesome-Discrete-Diffusion-LLM_MLLM .

Takeaways, Limitations_

Takeaways:
Nous montrons que les modèles de diffusion discrète peuvent atteindre des vitesses d’inférence jusqu’à 10 fois plus rapides que les modèles autorégressifs.
Il offre des fonctionnalités difficiles à obtenir dans les modèles autorégressifs, telles que la génération parallèle, le contrôle de sortie à granularité fine et la reconnaissance dynamique.
Il suggère des applications potentielles dans divers domaines (langage, vision-linguistique, biologie, etc.).
Fournit une étude systématique et une classification des dLLM et dMLLM.
Limitations:
Le document manque de références spécifiques à Limitations ou de limitations.
Une analyse détaillée de la comparaison des performances des modèles présentés peut faire défaut.
La discussion sur les orientations futures de la recherche pourrait être plus spécifique.
👍