Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La diffusion l'emporte sur l'autorégression dans les environnements à données limitées

Created by
  • Haebom

Auteur

Mihir Prabhudesai, Mengning Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

Contour

Alors que les modèles autorégressifs (AR) dominent depuis longtemps le domaine des modèles de langage à grande échelle, les modèles de langage basés sur la diffusion sont récemment apparus comme une alternative prometteuse. Dans cet article, nous étudions systématiquement les modèles de diffusion masquée dans des environnements contraints en données et constatons que les modèles de diffusion surpassent nettement les modèles autorégressifs lorsque les ressources de calcul sont abondantes mais les données rares. Les modèles de diffusion utilisent les données de manière répétée pour réduire les pertes de validation et obtenir des performances supérieures sur les tâches en aval. Cet avantage peut être interprété comme une augmentation implicite des données, car la diffusion masquée expose le modèle à divers ordres de jetons et tâches de prédiction, contrairement à la factorisation fixe de gauche à droite des modèles autorégressifs. Dans cet article, nous proposons une nouvelle loi d'échelle pour les modèles de diffusion et dérivons une expression fermée de la limite de calcul critique à laquelle les modèles de diffusion surpassent les modèles autorégressifs. Ces résultats suggèrent que les modèles de diffusion représentent une alternative intéressante au paradigme autorégressif traditionnel lorsque les ressources de calcul, plutôt que les données, constituent le goulot d'étranglement.

Takeaways, Limitations

Takeaways: Nous démontrons que les modèles de diffusion surpassent les modèles autorégressifs lorsque les ressources de calcul sont abondantes et les données rares. Nous démontrons que l'effet implicite d'augmentation des données des modèles de diffusion permet l'apprentissage pour diverses séquences de jetons et tâches de prédiction. Nous fournissons une analyse des lois d'échelle et des limites de calcul critiques des modèles de diffusion.
Limitations : Cette étude est limitée à un environnement de contraintes de données spécifique, et des recherches complémentaires sont nécessaires pour déterminer sa généralisabilité à d'autres distributions de données ou tâches. Les limites de calcul critiques présentées s'appliquent à un contexte spécifique et peuvent varier dans d'autres contextes.
👍