Sign In

English K_Quantization of LLMs Does Not Disproportionately Diminish Multilingual Performance

Created by
  • Haebom
Category
Empty

저자

Karl Audun Borgersen

개요

본 논문은 소비자급 하드웨어에서 로컬 배포가 가능하도록 LLM의 크기를 줄이면서 성능을 유지하기 위해 GGUF 형식과 k_quantization을 사용하는 방법을 연구합니다. 모델 추론 중 중요도에 따라 원래 모델의 각 가중치에 할당되는 비트 수를 줄이는데, 이 중요도는 LLM의 표준 사용 사례를 나타내는 상대적으로 작은 텍스트 문서인 'importance matrix'를 통해 도출됩니다. 기존 importance matrix는 주로 영어로 작성되어 있으므로, 영어 언어 작업에 대한 성능이 다국어 성능의 희생으로 유지되는지, 그리고 대체 importance matrix를 사용하여 성능을 유지할 수 있는지 여부를 조사합니다. Llama3.3 70B를 영어, 노르웨이어, 말라얄람어로 작성된 importance matrix를 사용하여 정량화하고, MixEval 데이터셋을 사용하여 영어와 노르웨이어에 대한 성능을 평가합니다.

시사점, 한계점

시사점: k_quantization을 이용한 다국어 LLM의 크기 최적화가 다국어 성능에 큰 영향을 미치지 않음을 실험적으로 확인했습니다. 다양한 언어의 importance matrix를 사용해도 성능 저하가 유의미하지 않다는 것을 보였습니다.
한계점: 실험에 사용된 언어(영어, 노르웨이어, 말라얄람어)가 제한적이며, 더 다양한 언어와 LLM 모델에 대한 추가 연구가 필요합니다. p-값 기준으로 유의미한 차이가 없다고 결론지었지만, 다른 통계적 분석 방법을 고려할 수 있습니다. 또한, MixEval 데이터셋만 사용하여 평가했으므로, 다른 벤치마크 데이터셋을 사용한 추가 실험이 필요합니다.
👍