본 논문은 대규모 언어 모델(LLM)의 경량화를 위한 새로운 압축 방법인 ClusComp을 제안합니다. ClusComp는 가중치 행렬을 코드북으로 클러스터링하고 블록 단위로 미세 조정하는 방식으로, 저비트(2-4비트) 양자화에서 우수한 성능을 달성하고, 1비트 양자화에서도 기존 초저비트 방법을 능가하는 성능을 보입니다. 또한, 효율적인 미세 조정을 가능하게 하여 기존 양자화 기반 접근법을 뛰어넘고 FP16 전체 미세 조정과도 경쟁력 있는 결과를 보여줍니다. 특히, 단일 A6000-48GB GPU에서 70B LLM의 압축 및 미세 조정을 지원하는 것이 특징입니다.