Cet article présente une étude systématique des modèles de langage à diffusion discrète (dLLM) et des modèles de langage multimodal à diffusion discrète (dMLLM). Contrairement aux modèles autorégressifs (AR), les dLLM et les dMLLM adoptent un paradigme de décodage parallèle multi-jetons utilisant des stratégies de génération basées sur l'attention totale et le débruitage. Ce paradigme permet naturellement la génération parallèle, le contrôle de sortie à granularité fine et la reconnaissance dynamique et sensible à la réponse, qui étaient auparavant difficiles à obtenir avec les modèles AR. Récemment, de nombreux d(M)LLM propriétaires à l'échelle industrielle et de nombreux d(M)LLM académiques open source ont atteint des performances comparables aux modèles autorégressifs tout en améliorant les vitesses d'inférence jusqu'à 10 fois. Les progrès des LLM et MLLM à diffusion discrète ont été principalement motivés par des avancées dans deux domaines. Le premier est le développement de LLM et MLLM autorégressifs, qui ont accumulé une vaste quantité de données, de repères et d'infrastructures sous-jacentes pour l'entraînement et l'inférence. Le deuxième domaine de contribution est l'avancement des modèles mathématiques sous-jacents de la diffusion discrète. Ces avancées ont entraîné un essor de la recherche en dLLM et dMLLM au début des années 2025. Cet article présente un aperçu complet de la recherche dans ce domaine, retraçant l'évolution historique de ces disciplines, formalisant le cadre mathématique sous-jacent et catégorisant les modèles représentatifs. Il analyse également les techniques clés d'apprentissage et d'inférence, et résume les applications émergentes dans les domaines du langage, de la vision-linguistique et de la biologie. Enfin, il aborde les orientations futures de la recherche et du déploiement.