Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

English K_Quantization of LLMs Does Not Disproportionately Diminish Multilingual Performance

Created by
  • Haebom

作者

Karl Audun Borgersen, Morten Goodwin

概要

消費者クラスのハードウェアでのローカル展開のためにGGUF形式とk_quantizationを使用してLlama3.3 70Bモデルのサイズを縮小しながらパフォーマンスを維持するための研究。モデル推論中の重みの重要度に応じて各重みに割り当てられるビット数を減らし、重要度は標準のユースケースを表す「importance matrix」という小さなテキスト文書によって決定されます。既存のimportance matrixは主に英語で書かれており、英語以外の言語に対する性能低下の有無が不明であったため、英語、ノルウェー語、マラヤーラム語で作成されたimportance matrixを使用してLlama3.3 70Bを定量化し、MixEvalデータセットで英語およびノルウェー語の性能を評価。

Takeaways、Limitations

Takeaways:現在の量子化方式は、多言語のパフォーマンスに不均衡な損傷を与えないことを示唆しています。さまざまな言語のimportance matrixを使用してもパフォーマンスの低下が大きくないことを示しています。
Limitations:統計的に有意な結果が得られません。さまざまな言語とより広範なデータセットを使用したさらなる研究が必要です。実験に使用された言語の数は限られています。
👍