Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article propose MQuant, un cadre de quantification post-apprentissage (PTQ) pour l'inférence efficace de modèles linguistiques multimodaux à grande échelle (MLLM). Pour relever les défis de déploiement et d'application pratiques liés à la taille importante des paramètres et aux exigences de calcul élevées des MLLM, MQuant introduit la quantification statique modale spécifique (MSQ), la commutation flexible invariante d'attention (AIFS) et la suppression d'échelle de rotation (RMS) afin d'obtenir des performances supérieures aux références PTQ existantes. MSQ attribue des échelles statiques distinctes aux jetons visuels et textuels. AIFS élimine les calculs d'échelle par jeton coûteux en calcul tout en préservant l'attention occasionnelle en réorganisant l'ordre des jetons. RMS atténue les valeurs aberrantes de poids causées par les rotations Hadamard en ligne. Nous démontrons que MQuant réduit la latence d'inférence jusqu'à 30 % sur cinq MLLM de premier plan, dont Qwen-VL, MiniCPM-V et CogVLM2, tout en conservant une précision en virgule flottante quasi équivalente (dégradation < 1 %) sous W4A8. Le code source est disponible sur GitHub.
Takeaways, Limitations_
•
Takeaways:
◦
Un nouveau cadre PTQ, MQuant, est présenté pour une inférence MLLM efficace.
◦
Résout la latence d'inférence élevée des PTQ existants (__T15336_____), l'inadéquation de la distribution entre les jetons visuels et textuels et les problèmes de valeurs aberrantes dus à la transformation Hadamard
◦
Obtenez une précision proche de la virgule flottante et une latence d'inférence réduite (jusqu'à 30 %) sur une variété de MLLM.
◦
Améliorer la praticabilité de l'inférence MLLM dans les environnements à ressources limitées
◦
Assurer la reproductibilité et l'extensibilité de la recherche grâce à la divulgation du code source
•
Limitations:
◦
L'efficacité de la méthode proposée pourrait être limitée à un MLLM et à un paramètre de quantification spécifiques (W4A8). Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation pour d'autres MLLM et paramètres de quantification.
◦
Les types de MLLM actuellement pris en charge sont limités et la vérification de l’applicabilité à une gamme plus large de modèles est nécessaire.
◦
Cette méthode est spécialisée pour les MLLM qui s'appuient sur la transformée de Hadamard, il peut donc être difficile de l'appliquer aux MLLM avec d'autres architectures.