Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization

Created by
  • Haebom

作者

JiangYong Yu, Sifan Zhou, Dawei Yang, Shuo Wang, Shuoyu Li, Xing Hu, Chen Xu, Zukang Xu, Changyong Shu, Zhihang Yuan

概要

本論文は、マルチモーダル大規模言語モデル(MLLM)の効率的な推論のための後訓練量子化(PTQ)フレームワークであるMQuantを提案します。 MLLMの大きなパラメータサイズと高い計算要求により実際の展開と適用が困難な問題を解決するために、MQuantはモーダル固有の静的量子化(MSQ)、アテンション不変柔軟変換(AIFS)、回転サイズ抑制(RMS)などの技術を導入し、従来のPTQ基準より優れた性能を達成します。 MSQは視覚トークンとテキストトークンに別々の静的スケールを割り当て、AIFSはトークン順序を並べ替え、カジュアルアテンションを維持しながら計算コストの高いトークン別スケール計算を排除し、RMSはオンラインHadamardの回転による重みの異常を軽減します. Qwen-VL、MiniCPM-V、CogVLM2など、5つの主要MLLMでは、W4A8の下で浮動小数点精度とほぼ同じ性能(<1%低下)を維持しながら、推論遅延時間を最大30%に短縮する結果を示しました。ソースコードはFitHubに公開されました。

Takeaways、Limitations

Takeaways:
MLLMの効率的な推論のための新しいPTQフレームワークMQuantの提示
既存のPTQのLimitationsである高い推論遅延時間、視覚的およびテキストトークン間の分布の不一致、Hadamard変換による異常値のトラブルシューティング
様々なMLLMで浮動小数点精度に近い性能と推論遅延時間の減少を達成(最大30%)
資源制約環境におけるMLLM推論の実用性の向上
ソースコード開示による研究の再現性と拡張性の確保
Limitations:
提案された方法の効果は、特定のMLLMおよび量子化設定(W4A8)に限定され得る。他のMLLMまたは量子化設定での一般化性能にはさらなる研究が必要です。
現在サポートされているMLLMの種類は限られており、より多様なモデルの適用性検証が必要です。
Hadamard変換に依存するMLLMに特化した方法で、異なるアーキテクチャを持つMLLMには適用が難しい場合があります。
👍