본 논문은 사후 학습 최적화 기법을 통해 양자화된 대규모 언어 모델(LLM)의 성능을 향상시키는 새로운 방법을 제시합니다. 기존의 양자화 및 가지치기 기법은 모델 크기를 줄이는 데 초점을 맞춘 반면, 본 논문에서는 모델 크기를 확장하여 양자화로 인한 성능 저하를 보완하는 방법을 제안합니다. 특히, Llama3 1B 모델에 4-bit 양자화를 적용하면서 QuaRot 및 SpinQuant와 같은 기존 기법 대비 평균 3% 향상된 정확도를 달성하였으며, 이는 BF16 기준 모델 대비 3.8%의 크기 감소를 의미합니다. 이러한 성능 향상은 end-to-end 재학습 없이, 사후 학습 과정에서 선택적으로 모델 크기를 증가시킴으로써 가능해졌습니다. 본 논문은 이러한 방법의 이론적 근거도 함께 제시합니다.