Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

Created by
  • Haebom

Auteur

Runpeng Yu, Qi Li, Xinchao Wang

Contour

Cet article présente une étude systématique des modèles de langage à diffusion discrète (dLLM) et des modèles de langage multimodal à diffusion discrète (dMLLM). Contrairement aux modèles autorégressifs (AR), les dLLM et les dMLLM adoptent un paradigme de décodage parallèle multi-jetons utilisant des stratégies de génération basées sur l'attention totale et le débruitage. Ce paradigme permet naturellement la génération parallèle, le contrôle de sortie à granularité fine et la reconnaissance dynamique et sensible à la réponse, qui étaient auparavant difficiles à obtenir avec les modèles AR. Récemment, de nombreux d(M)LLM propriétaires à l'échelle industrielle et de nombreux d(M)LLM académiques open source ont atteint des performances comparables aux modèles autorégressifs tout en améliorant les vitesses d'inférence jusqu'à 10 fois. Les progrès des LLM et MLLM à diffusion discrète ont été principalement motivés par des avancées dans deux domaines. Le premier est le développement de LLM et MLLM autorégressifs, qui ont accumulé une vaste quantité de données, de repères et d'infrastructures sous-jacentes pour l'entraînement et l'inférence. Le deuxième domaine de contribution est l'avancement des modèles mathématiques sous-jacents de la diffusion discrète. Ces avancées ont entraîné un essor de la recherche en dLLM et dMLLM au début des années 2025. Cet article présente un aperçu complet de la recherche dans ce domaine, retraçant l'évolution historique de ces disciplines, formalisant le cadre mathématique sous-jacent et catégorisant les modèles représentatifs. Il analyse également les techniques clés d'apprentissage et d'inférence, et résume les applications émergentes dans les domaines du langage, de la vision-linguistique et de la biologie. Enfin, il aborde les orientations futures de la recherche et du déploiement.

Takeaways, Limitations

Takeaways:
DLLM et dMLLM offrent des avantages par rapport aux modèles AR, notamment la génération parallèle, le contrôle de sortie à granularité fine et la reconnaissance dynamique et sensible à la réponse.
DLLM et dMLLM ont permis d'obtenir une accélération d'inférence jusqu'à 10 fois supérieure à celle du modèle AR.
Cet article fournit un aperçu complet du développement historique de dLLM et dMLLM, de leurs cadres mathématiques, de leurs modèles représentatifs, de leurs techniques de formation et d'inférence et de diverses applications.
Présente les orientations futures de la recherche dLLM et dMLLM.
Limitations:
Cet article se concentre sur un aperçu général plutôt que sur une analyse approfondie de modèles ou d’applications spécifiques.
Il peut y avoir un manque de discussion détaillée sur les avantages et les inconvénients de dLLM et dMLLM.
Les suggestions concernant les orientations futures de la recherche peuvent ne pas être spécifiques.
👍