Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Amélioration de la quantification grâce à l'extension du modèle post-formation

Created by
  • Haebom

Auteur

Giuseppe Franco, Pablo Monteagudo-Lago, Ian Colbert, Nicholas Fraser, Michaela Blott

Contour

Cet article présente une méthode permettant d'améliorer les performances des modèles quantifiés en augmentant leur taille grâce à une optimisation post-apprentissage. Alors que les techniques de quantification existantes se concentrent sur la réduction de la taille du modèle, cet article propose une stratégie d'extension du modèle afin de compenser la dégradation des performances causée par le processus de quantification. Plus précisément, en quantifiant le modèle Llama3 1B à 4 bits et en augmentant sa taille de 5 %, nous obtenons une amélioration moyenne de 9 % de la réduction de la perplexité par rapport à QuaRot et SpinQuant, et une réduction de taille de 3,8 % par rapport au modèle de base BF16. Ces résultats démontrent que l'extension post-apprentissage du modèle est une stratégie viable pour améliorer les performances du modèle dans l'espace de co-conception par quantification.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’extension du modèle post-formation peut atténuer efficacement la dégradation des performances causée par la quantification.
Une nouvelle approche est présentée pour trouver l’équilibre optimal entre performance et efficacité en ajustant la taille du modèle pendant le processus de quantification de LLM.
Fournit un moyen efficace d’améliorer les performances du modèle sans nécessiter une nouvelle formation complète.
Limitations:
Actuellement, seuls les résultats du modèle Llama3 1B sont présentés, de sorte que la généralisabilité à d'autres modèles ou nombres de bits de quantification est limitée.
Il existe un manque de directives spécifiques sur la manière d’optimiser les stratégies de mise à l’échelle des modèles et de déterminer l’échelle de mise à l’échelle.
Manque d’analyse quantitative de la mémoire supplémentaire et des coûts de calcul résultant de l’extension du modèle.
👍