본 논문은 대규모 언어 모델(LLM)의 경량화를 위한 새로운 방법인 ClusComp을 제안합니다. ClusComp는 가중치 행렬을 코드북으로 클러스터링하고 블록 단위로 미세 조정하는 방식으로, 기존의 가중치 양자화 방식의 성능 저하 문제를 해결합니다. 특히 2-4비트 양자화에서 우수한 성능을 보이며, 1비트 양자화에서도 기존 초저비트 방법들을 능가하는 성능을 달성합니다. 또한, 효율적인 미세 조정을 가능하게 하여 기존 양자화 기반 접근 방식을 뛰어넘고 FP16 전체 미세 조정과 비슷한 수준의 성능을 보입니다. 70B LLM의 압축 및 미세 조정을 단일 A6000-48GB GPU에서 지원하는 것도 특징입니다.