Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Efficient Large Language Model Inference with Neural Block Linearization

Created by
  • Haebom

作者

Mete Erdogan, Francesco Tonin, Volkan Cevher

概要

Transformerベースの大規模言語モデル(LLM)の高い推論要件は、展開に大きな課題をもたらします。この目的のために、自己注意層をLinear Minimum Mean Squared Error推定値から導出された線形近似に置き換えて、トランスモデルの推論を加速する新しいフレームワークであるNeural Block Linearization(NBL)を紹介します。 NBLは正準相関分析を利用して近似誤差の理論上限を計算する。次に、この境界を代替基準として使用して、線形化誤差が最も低いLLMレイヤを選択します。 NBLは、微調整なしで事前訓練されたLLMに効率的に適用できます。実験では、NBLは複数の推論ベンチマークで競争力のある精度を維持しながら、かなりの計算速度向上を達成しました。たとえば、DeepSeek-R1-Distill-Llama-8Bの12個の自己主義層にNBLを適用すると、1%未満の精度損失で推論速度が32%増加し、LLMの推論効率を向上させる柔軟で有望なソリューションになります。

Takeaways、Limitations

Takeaways:
自己主義層を線形近似に置き換えてLLM推論速度を向上させる新しいフレームワークの提示
微調整なしで事前訓練されたLLMに適用可能。
計算速度の向上と精度維持のバランスをとる部屋。
DeepSeek-R1-Distill-Llama-8Bモデルに適用して32%の速度向上を達成。
https://github.com/LIONS-EPFL/NBLで実装を提供します。
Limitations:
精度損失が発生する可能性があります(1%未満)。
NBLの効果がすべてのLLMアーキテクチャとタスクに等しく適用されるかどうかは、さらなる研究が必要です。
線形近似の性能と適用範囲のさらなる分析が必要
👍