Este artículo presenta un método para mejorar el rendimiento de los modelos cuantificados mediante el aumento de su tamaño mediante la optimización posterior al entrenamiento. Si bien las técnicas de cuantificación existentes se centran en la reducción del tamaño del modelo, este artículo propone una estrategia para expandirlo y compensar la degradación del rendimiento causada por el proceso de cuantificación. Específicamente, al cuantificar el modelo Llama3 1B a 4 bits y aumentar su tamaño en un 5%, logramos una mejora promedio del 9% en la reducción de la perplejidad en comparación con QuaRot y SpinQuant, y una reducción de tamaño del 3,8% en comparación con el modelo base BF16. Estos resultados demuestran que la expansión del modelo posterior al entrenamiento es una estrategia viable para mejorar el rendimiento del modelo en el contexto del codiseño de cuantificación.