소비자급 하드웨어에서의 로컬 배포를 위해 GGUF 형식과 k_quantization을 사용하여 Llama3.3 70B 모델의 크기를 줄이면서 성능을 유지하는 연구. 모델 추론 중 가중치의 중요도에 따라 각 가중치에 할당되는 비트 수를 줄이며, 중요도는 표준 사용 사례를 나타내는 'importance matrix'라는 작은 텍스트 문서를 통해 결정. 기존 importance matrix는 주로 영어로 작성되어 있어 영어 이외 언어에 대한 성능 저하 여부가 불명확했기에, 영어, 노르웨이어, 말라얄람어로 작성된 importance matrix를 사용하여 Llama3.3 70B를 정량화하고 MixEval 데이터셋으로 영어 및 노르웨이어 성능을 평가.