消費者クラスのハードウェアでのローカル展開のためにGGUF形式とk_quantizationを使用してLlama3.3 70Bモデルのサイズを縮小しながらパフォーマンスを維持するための研究。モデル推論中の重みの重要度に応じて各重みに割り当てられるビット数を減らし、重要度は標準のユースケースを表す「importance matrix」という小さなテキスト文書によって決定されます。既存のimportance matrixは主に英語で書かれており、英語以外の言語に対する性能低下の有無が不明であったため、英語、ノルウェー語、マラヤーラム語で作成されたimportance matrixを使用してLlama3.3 70Bを定量化し、MixEvalデータセットで英語およびノルウェー語の性能を評価。