Cet article présente le forçage de diffusion discret (D2F), une nouvelle stratégie visant à améliorer la vitesse d'inférence des modèles de langage à grande échelle de diffusion (dLLM). Les dLLM open source existants peinent à surpasser les LLM autorégressifs (AR) de taille similaire en termes de vitesse d'inférence. D2F surmonte cette limitation en générant des autorégressions au niveau des blocs et en permettant la prédiction de jetons ultérieurs sans compléter les blocs précédents. Cela améliore efficacement les dLLM existants en un paradigme hybride AR-diffusion. D2F est implémenté via un processus de distillation asymétrique basé sur un dLLM pré-entraîné, et nous proposons également un algorithme de décodage parallèle en pipeline qui permet un compromis entre efficacité et efficience. Les résultats expérimentaux montrent que le dLLM D2F atteint des vitesses d'inférence 2,5 fois supérieures à celles de LLaMA3 et Qwen2.5 sur GSM8K, et plus de 50 fois supérieures à celles des dLLM existants tels que LLaDA et Dream. Le code est disponible sur GitHub.