Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression

Created by
  • Haebom

作者

Muchammad Daniyal Kautsar, Afra Majida Hariono, Widyawan, Syukron Abu Ishaq Alfarozi, Kuntpong Woraratpanya

概要

本論文では、大規模言語モデル(LLM)の展開に伴う困難、特にモデルの膨大なサイズと高い計算要求問題を解決するために、特異値分解(SVD)を用いた低ランク分解技術を改善する新しい方法であるCorrective Adaptive Low-Rank Decomposition(CALR)を提案します。従来のSVDベースの圧縮方法は、モデルの再構築誤差を最小限に抑えることに焦点を当てて機能的性能の低下を招きますが、CALRはSVDで圧縮された階層と機能的残差誤差を回復するために学習された並列低ランク補正モジュールを組み合わせることによってこの問題を解決します。 SmolLM2-135M、Qwen3-0.6B、Llama-3.2-1Bなどのモデルに対する実験結果、CALRはパラメータ数を26.93% 51.77%減少させながら元のモデル性能の59.45% 90.42%を維持し、従来のLaCo、ShortGPT、LoSparseなど。これは、機能的な情報損失を学習可能な信号として扱うことが有効な圧縮パラダイムであることを示している。

Takeaways、Limitations

Takeaways:
機能的情報損失を学習可能な信号として扱う新しい圧縮パラダイムの提示
従来の低ランク分解技術より優れた性能を示すCALRアルゴリズムの開発
LLMのサイズと計算要件の削減による実環境展開の可能性の向上
資源制約環境におけるLLMの利用可能性の拡大
Limitations:
提示された実験結果は特定のモデルに限定され、一般化の可能性に関するさらなる研究が必要
CALRの校正モジュールの学習に必要な計算コストと時間の分析が必要
さまざまなサイズおよび種類のLLMのための追加の実験および性能評価が必要
👍