Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SegQuant : un cadre de quantification généralisable et sensible à la sémantique pour les modèles de diffusion

Created by
  • Haebom

Auteur

Jiaji Zhang, Ruichao Sun, Hailiang Zhao, Jiaju Wu, Peng Chen, Hao Li, Yuying Liu, Kingsum Chow, Gang Xiong, Shuiguang Deng

Contour

Cet article propose SegQuant, un nouveau cadre de quantification permettant de réduire le coût de calcul des modèles de diffusion. Relevant les défis des méthodes de quantification post-apprentissage (PTQ) existantes, qui peinent à généraliser en raison de la spécificité de leur structure, SegQuant combine la stratégie SegLinear, qui capture la sémantique structurelle et l'hétérogénéité spatiale, avec la technique DualScale, qui préserve l'activation asymétrique polaire, pour atteindre des performances élevées et une applicabilité à un large éventail de modèles. Il est applicable à un large éventail de modèles, y compris les modèles de diffusion basés sur Transformer, et assure la compatibilité avec les principaux outils de déploiement.

Takeaways, Limitations

Takeaways:
Nous présentons SegQuant, un nouveau cadre de quantification qui réduit efficacement le coût de calcul des modèles de diffusion.
Fournit une technique de quantification généralisable qui ne dépend pas de la structure du modèle.
Résolution des difficultés de spécificité du modèle et de déploiement de la méthode PTQ existante, Limitations.
Assurez une compatibilité transparente avec les principaux outils de déploiement.
Applicable à divers modèles de diffusion au-delà des modèles basés sur des transformateurs.
Limitations:
Des résultats expérimentaux supplémentaires sont nécessaires pour déterminer les performances de SegQuant par rapport à d’autres techniques de quantification de pointe.
Une évaluation approfondie des performances et de la stabilité dans le monde réel sur une variété de modèles et d’environnements de déploiement est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer si des optimisations sont possibles pour des plates-formes matérielles spécifiques.
👍