Pour répondre aux besoins élevés en ressources rencontrés lors du déploiement de grands modèles de langage (LLM), cet article propose une quantification non uniforme adaptative au GPU (GANQ), un cadre de quantification non uniforme post-apprentissage par couche optimisé par GPU. GANQ réduit efficacement les erreurs de quantification par couche grâce à un algorithme d'optimisation adaptative au GPU sans apprentissage et vise à fournir une implémentation matériellement efficace pour la multiplication matricielle généralisée à précision mixte basée sur une table de correspondance (mpGEMM). Les résultats expérimentaux démontrent que GANQ réduit l'écart de perplexité en termes de FP16 pour la quantification 3 bits et 4 bits par rapport aux méthodes de pointe existantes, et améliore l'efficacité mémoire et d'inférence des déploiements LLM jusqu'à 2,57 fois plus rapide sur un seul GPU NVIDIA RTX 4090.