Cet article présente une méthode permettant d'améliorer les performances des modèles quantifiés en augmentant leur taille grâce à une optimisation post-apprentissage. Alors que les techniques de quantification existantes se concentrent sur la réduction de la taille du modèle, cet article propose une stratégie d'extension du modèle afin de compenser la dégradation des performances causée par le processus de quantification. Plus précisément, en quantifiant le modèle Llama3 1B à 4 bits et en augmentant sa taille de 5 %, nous obtenons une amélioration moyenne de 9 % de la réduction de la perplexité par rapport à QuaRot et SpinQuant, et une réduction de taille de 3,8 % par rapport au modèle de base BF16. Ces résultats démontrent que l'extension post-apprentissage du modèle est une stratégie viable pour améliorer les performances du modèle dans l'espace de co-conception par quantification.