Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Les modèles de langage de diffusion connaissent la réponse avant de décoder
Created by
Haebom
Auteur
Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu
Contour
Les modèles de langage de diffusion (DLM) offrent une génération de séquences parallèles et un ordonnancement flexible des jetons, mais leur vitesse d'inférence est inférieure à celle des modèles autorégressifs en raison du coût de l'attention bidirectionnelle et des nombreuses étapes de raffinement nécessaires pour obtenir une sortie de haute qualité. Cet article met en évidence une caractéristique jusqu'alors négligée des DLM : la convergence des réponses précoces. Dans de nombreux cas, la bonne réponse peut être identifiée en interne même à mi-chemin de l'étape finale de décodage. Sur la base de cette observation, cet article propose Prophet, un paradigme de décodage rapide et sans apprentissage qui permet un décodage précoce. Prophet détermine dynamiquement s'il faut poursuivre le raffinement ou décoder tous les jetons restants en même temps, en fonction de la différence de confiance entre les deux principaux candidats de prédiction. Il s'intègre parfaitement aux implémentations DLM existantes et ne nécessite aucune surcharge ni formation supplémentaire. Les résultats expérimentaux obtenus sur LLaDA-8B et Dream-7B lors de diverses tâches démontrent que Prophet réduit le nombre d'étapes de décodage jusqu'à 3,4 fois tout en maintenant une qualité de génération élevée. Cela reformule le décodage DLM comme le problème de décider quand arrêter l'échantillonnage et montre que la convergence du décodage précoce est un mécanisme simple mais puissant pour accélérer l'inférence DLM.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons une nouvelle méthode qui améliore considérablement la vitesse de décodage en exploitant le phénomène de convergence de réponse précoce des DLM.
◦
Une méthode efficace qui peut être intégrée dans les implémentations DLM existantes sans apprentissage supplémentaire.
◦
Maintenez une qualité de génération élevée tout en réduisant le nombre d'étapes de décodage jusqu'à 3,4x.
◦
Une nouvelle perspective sur l’accélération de l’inférence DLM (reformulée comme un problème de décision du moment où arrêter l’échantillonnage).
•
Limitations:
◦
L’efficacité de la méthode proposée peut varier en fonction du modèle DLM et de la tâche utilisée.
◦
Des recherches supplémentaires sont nécessaires pour explorer l’optimisation potentielle des méthodes de prise de décision en matière de résiliation anticipée en fonction des différences de confiance.
◦
Peut s'appliquer uniquement à certains types de DLM.
◦
Des expérimentations plus poussées avec différents modèles et tâches sont nécessaires.