Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization

Created by
  • Haebom

作者

Zechun Liu, Changsheng Zhao, Hanxian Huang, Sijia Chen, Jing Zhang, Jiawei Zhao, Scott Roy, ​​Lisa Jin, Yunyang Xiong, Yangyang Shi, Lin Xiao, Yuandong Tian, Bilge Soran, Raghuraman Krishnamoorthi, Tijmen Blankevoort,

概要

本論文は、量子化されたモデルサイズと精度の間の最適なトレードオフを達成するための最適なビット幅を探ります。 1ビット、1.58ビット、2ビット、3ビット、4ビット量子化設定を包括的に比較できる統合フレームワークであるParetoQを提示します。 2ビットと3ビットの間の学習遷移が見つかり、ParetoQは特定のビット幅に合わせて調整された以前の方法よりも優れています。 ParetoQ ternary 600Mパラメータモデルは、以前のSoTA ternary 3Bパラメータモデルよりも精度が高く、ternary、2ビット、3ビット量子化はサイズ精度のトレードオフで同様の性能を示し、2ビット量子化はメモリの削減とスピードアップの可能性を示しています。

Takeaways、Limitations

Takeaways:
さまざまなビット幅(1ビット、1.58ビット、2ビット、3ビット、4ビット)を包括的に比較する統合フレームワークであるParetoQの提示。
2ビットと3ビットの間の学習遷移の発見。
ParetoQ ternary 600M-parameterモデルは、従来のSoTA 3B-parameterモデルより優れた性能を示します。
Ternary、2 ビット、3 ビット量子化は、サイズと精度のトレードオフで競争力のあるパフォーマンスを示しています。
2ビット量子化がメモリの削減とスピードアップに可能性をもたらします。
Limitations:
論文に具体的なLimitationsへの直接的な言及はありません。
👍