Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LUQ: Layerwise Ultra-Low Bit Quantization for Multimodal Large Language Models

Created by
  • Haebom

作者

Shubhang Bhatnagar, Andy Xu, Kar-Han Tan, Narendra Ahuja

概要

この論文では、マルチモーダルLLM(MLLM)の超低ビット(<4ビット)量子化に関する最初の研究を紹介します。テキストトークンと比較して、マルチモーダルトークンと中間層の活性化は、より高い統計的分散とエントロピーをもたらし、超低ビット量子化にあまり寛大であることを発見しました。この洞察に基づいて、レイヤーごとの超低ビット量子化(LUQ)と呼ばれる新しいMLLM量子化戦略を提案し、量子化に強い層に選択的に超低ビット量子化を適用します。また、PTQにマルチモーダルトークン(画像とテキスト)を混在させることで、超低ビット環境でVQAのパフォーマンスを向上させることができます。 LLaVA-1.5およびQwen-2.5-VLモデルを9つのVQAベンチマークで評価した結果、LUQモデルは4ビットモデルよりもメモリを40%および31%少なく使用し、MMEベンチマークで10%未満のパフォーマンス低下を示しました。

Takeaways、Limitations

Takeaways:
MLLMの超低ビット量子化の可能性を提示し、メモリ使用量を減らすための新しい方法を提示します。
レイヤー固有の特性を考慮した量子化戦略(LUQ)により、パフォーマンスの低下を最小限に抑えます。
PTQプロセス中にマルチモーダルトークンを混合してVQAパフォーマンスを向上させます。
Limitations:
性能低下が10%未満と報告されているが、依然として性能損失が存在する。
特定のMLLMモデル(LLaVA-1.5、Qwen-2.5-VL)およびVQAベンチマークに限定された評価。
他のマルチモーダルタスクやモデルの一般化の可能性にはさらなる研究が必要です。
👍