Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DLLMQuant : quantification de grands modèles de langage basés sur la diffusion

Created by
  • Haebom

Auteur

Chen Xu, Dawei Yang

Contour

Cet article présente une technique de quantification permettant de construire efficacement des modèles de langage à grande échelle (DLLM) basés sur la diffusion. Les techniques de quantification post-apprentissage (PTQ) existantes, appliquées aux DLLM, souffrent d'une dégradation de la précision et de la généralisation en raison de conflits avec les mécanismes fondamentaux des DLLM, tels que le masquage dynamique, la génération itérative et l'attention bidirectionnelle. Par conséquent, dans cet article, nous proposons le cadre DLLMQuant, qui comprend trois nouvelles techniques : TMAS, une technique de compensation prenant en compte les facteurs temporels et de masque ; IA-AQ, qui alloue dynamiquement des ressources de quantification en exploitant le signal d'interaction de l'attention bidirectionnelle ; et CGQ, qui utilise les états de masque et les scores de jetons pour la correction des erreurs. Les résultats expérimentaux démontrent que DLLMQuant permet d'obtenir des améliorations significatives des performances et une efficacité accrue.

Takeaways, Limitations

Takeaways:
Nous présentons DLLMQuant, un nouveau framework PTQ pour une construction DLLM efficace.
Résolution des problèmes de précision réduite et de performances de généralisation qui surviennent lors de l'application de DLLM aux PTQ existants.
Une quantification efficace prenant en compte les caractéristiques du DLLM est obtenue grâce à trois techniques innovantes : TMAS, IA-AQ et CGQ.
Les résultats expérimentaux confirment l’amélioration des performances et l’efficacité accrue de DLLMQuant.
Limitations:
Une vérification supplémentaire des performances de généralisation de la méthode proposée est nécessaire.
Une analyse de l'applicabilité et des performances pour différentes architectures et tailles DLLM est nécessaire.
Une analyse comparative plus détaillée avec d’autres techniques de quantification est nécessaire.
Une évaluation des performances et une vérification de la stabilité dans des environnements d’application réels sont nécessaires.
👍