본 논문은 대규모 모델의 통신 및 추론 비용을 줄이기 위한 모델 가중치 양자화에 초점을 맞추고 있습니다. 특히 int4 또는 int2와 같은 저정밀도 양자화는 모델 품질 저하를 야기하는 문제점을 해결하기 위해 Matryoshka Quantization (MatQuant) 기법을 제안합니다. MatQuant는 다중 스케일 양자화 기법으로, 단일 양자화 모델을 학습 및 유지 관리하면서 배포 환경의 요구 사항에 따라 정밀도를 조절하여 제공할 수 있습니다. int8과 같은 정수 데이터 타입의 중첩 구조를 활용하여, 기존의 int2 양자화보다 성능을 향상시키며, 특히 이상치를 나타내는 추가 비트를 사용하여 2.05-bit의 유효 정밀도를 달성, 성능을 더욱 향상시킴을 보여줍니다.