Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BASE-Q: Bias and Asymmetric Sc​​aling Enhanced Rotational Quantization for Large Language Models

Created by
  • Haebom

作者

Liulu He, Shenli Zheng, Karwei Sun, Yijiang Liu, Yufei Zhao, Chongkang Tan, Huanrui Yang, Yuan Du, Li Du

概要

この論文では、大規模言語モデル(LLM)の量子化パイプラインにおける回転技術の有効性を高めるために提案されたBASE-Q方法を紹介します。従来の回転に基づく量子化法は、チャネル平均整列の失敗と活性化分布のガウス分布に起因する丸めとクリッピング誤差の増加という限界を有する。 BASE-Qはバイアス補正と非対称スケーリングを組み合わせて、これらのエラーを効果的に低減します。さらに、ブロック単位の最適化により、メモリ消費量の大きい全モデルの逆伝播を排除します。さまざまなLLMおよびベンチマーク実験の結果、BASE-Qは従来の方法(QuaRot、SpinQuant、OSTQuant)と比較して精度損失をそれぞれ50.5%、42.9%、29.2%まで減らすことが示されています。

Takeaways、Limitations

Takeaways:
従来の回転ベースの量子化方法のLimitations(チャネル平均整列失敗、ガウス分布による誤差増加)を明確に示し、これを解決する効果的な方法(BASE-Q)を提案しました。
BASE-Qはブロック単位の最適化によりメモリ効率を大幅に向上させました。
さまざまなLLMとベンチマークで、従来の方法と比較して優れたパフォーマンス向上が見られました。
Limitations:
まだコードが公開されていません。
さまざまなLLMとベンチマークでの実験結果が示されていますが、特定のLLMまたはベンチマークのパフォーマンスが過度に良好または悪い場合の分析が不足する可能性があります。
BASE-Qのブロック単位最適化戦略の詳細な説明が不足している可能性があります。
👍