Les modèles de langage à grande échelle par diffusion (dLLM) génèrent du texte par débruitage itératif, mais les stratégies de décodage actuelles éliminent les prédictions intermédiaires riches pour la sortie finale. Cette étude révèle un phénomène d'oscillation temporelle où les bonnes réponses apparaissent pendant l'étape intermédiaire et sont ensuite écrasées pendant l'étape de débruitage. Pour résoudre ce problème, nous proposons deux méthodes complémentaires qui exploitent la cohérence temporelle. Premièrement, le vote d'auto-cohérence temporelle (TSV), une stratégie de décodage sans apprentissage, agrège les prédictions issues de l'étape de débruitage pour sélectionner la sortie la plus cohérente. Deuxièmement, le renforcement de la cohérence temporelle (TCR), une méthode post-apprentissage qui encourage une génération stable en utilisant l'entropie sémantique temporelle (TSE), une mesure de la stabilité sémantique des prédictions intermédiaires, comme signal de récompense. Les résultats expérimentaux obtenus sur plusieurs benchmarks démontrent l'efficacité de la méthode proposée. En utilisant uniquement une compensation TSE négative, nous observons une amélioration moyenne remarquable des performances de 24,7 % par rapport au dLLM existant sur l'ensemble de données Countdown. Grâce à la compensation de précision, nous avons obtenu des améliorations de performance absolue de 2,0 % sur GSM8K, 4,3 % sur MATH500, 6,6 % sur SVAMP et 25,3 % sur Countdown. Ces résultats mettent en évidence le potentiel inexploité de la dynamique temporelle de dLLM et fournissent deux outils simples mais efficaces pour l'exploiter.