Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

English K_Quantization of LLMs Does Not Disproportionately Diminish Multilingual Performance

Created by
  • Haebom

저자

Karl Audun Borgersen, Morten Goodwin

개요

소비자급 하드웨어에서의 로컬 배포를 위해 GGUF 형식과 k_quantization을 사용하여 Llama3.3 70B 모델의 크기를 줄이면서 성능을 유지하는 연구. 모델 추론 중 가중치의 중요도에 따라 각 가중치에 할당되는 비트 수를 줄이며, 중요도는 표준 사용 사례를 나타내는 'importance matrix'라는 작은 텍스트 문서를 통해 결정. 기존 importance matrix는 주로 영어로 작성되어 있어 영어 이외 언어에 대한 성능 저하 여부가 불명확했기에, 영어, 노르웨이어, 말라얄람어로 작성된 importance matrix를 사용하여 Llama3.3 70B를 정량화하고 MixEval 데이터셋으로 영어 및 노르웨이어 성능을 평가.

시사점, 한계점

시사점: 현재의 양자화 방식은 다국어 성능에 불균형적인 손상을 입히지 않음을 시사. 다양한 언어의 importance matrix를 사용해도 성능 저하가 크지 않음을 보임.
한계점: 통계적으로 유의미한 결과를 얻지 못함. 다양한 언어와 더욱 광범위한 데이터셋을 사용한 추가 연구가 필요. 실험에 사용된 언어의 수가 제한적임.
👍