Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms

Created by
  • Haebom

作者

Bingxin Xu, Zhen Dong, Oussama Elachqar, Yuzhang Shang

概要

本論文は、消費者ハードウェア上での配布を制限する巨大なメモリ空間を必要とする大規模言語モデルの問題を解決するために、2ビット量子化における活性化値の異常値による性能低下問題を解決する新しい量子化技術であるButterflyQuantを提案します。従来の回転ベースの方法(QuIP、QuaRot)は固定されたHadamard変換を使用していますが、この論文ではTransformerの各レイヤに異なる異常値パターンがあることを発見し、学習可能なButterfly変換を使用してレイヤに適応的な回転を実行するButterflyQuantを提示します。 Butterfly変換は、連続的なGivens回転角度をパラメータとして微分可能であり、直交性を確保しながら、$ O(n \ log n)$の計算複雑度と$ \ frac { n \ log n} {2} $個の学習可能なパラメータのみを使用します。さらに、量子化に適した滑らかな分布のために、変換後の活性化値に対する均一性正規化を導入する。 LLaMA-2-7Bモデルに2ビット量子化を適用した実験の結果、ButterflyQuantはQuaRotよりはるかに優れた性能を示した。

Takeaways、Limitations

Takeaways:
レイヤーに適応した回転により、従来の固定変換ベースの方法よりも効率的な2ビット量子化を可能にします。
学習可能なButterfly変換を用いて微分可能で直交性を確保する効率的な量子化法の提示
少ない補正サンプルと高速収束時間で実用的な適用性を高めます。
LLaMA-2-7B実験の結果、従来の方法より優れた性能を実証。
Limitations:
ButterflyQuantの性能向上が特定モデル(LLaMA-2-7B)と2ビット量子化に限定される可能性。
異なる種類の大規模言語モデルまたは量子化ビット数の一般化性能検証が必要
均一性正規化の効果のさらなる分析が必要な場合がある。
極端な低ビット量子化の一般化性能に関するさらなる研究が必要
👍