본 논문은 소비자급 하드웨어에서 로컬 배포가 가능하도록 LLM의 크기를 줄이면서 성능을 유지하기 위해 GGUF 형식과 k_quantization을 사용하는 방법을 연구합니다. 모델 추론 중 중요도에 따라 원래 모델의 각 가중치에 할당되는 비트 수를 줄이는데, 이 중요도는 LLM의 표준 사용 사례를 나타내는 상대적으로 작은 텍스트 문서인 'importance matrix'를 통해 도출됩니다. 기존 importance matrix는 주로 영어로 작성되어 있으므로, 영어 언어 작업에 대한 성능이 다국어 성능의 희생으로 유지되는지, 그리고 대체 importance matrix를 사용하여 성능을 유지할 수 있는지 여부를 조사합니다. Llama3.3 70B를 영어, 노르웨이어, 말라얄람어로 작성된 importance matrix를 사용하여 정량화하고, MixEval 데이터셋을 사용하여 영어와 노르웨이어에 대한 성능을 평가합니다.