소비자 수준의 하드웨어에서도 배포 가능하도록 원래 모델의 성능을 유지하면서 크기를 줄이기 위해, 로컬 배포된 LLMs의 소비자 사용을 위한 GGUF 형식과 k_quantization이 중요한 도구임을 제시합니다. 원래 모델의 각 가중치에 할당되는 비트 수는 모델 추론 중 중요도에 따라 줄어듭니다. 이 중요도는 'importance matrix'라는 비교적 작은 텍스트 문서를 통해 도출되며, 이는 LLM의 표준 사용 사례를 대표하는 것을 목표로 합니다. 본 논문에서는 영어, 노르웨이어, 말라얄람어로 작성된 importance matrix를 사용하여 Llama3.3 70B를 정량화하고 MixEval 데이터셋을 사용하여 영어와 노르웨이어 모두에서 평가함으로써, 영어 언어 작업의 성능이 다국어 성능의 희생을 통해 유지되는지, 그리고 대체 importance matrix를 사용하여 유지될 수 있는지 조사합니다.