Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention

Created by
  • Haebom

作者

Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Guanyu Feng, Xin Lv, Xiao Chuanfu, Dahua Lin, Chao Yang

概要

この論文は、非常に長いコンテキストウィンドウをサポートする大規模言語モデル(LLM)におけるvanillaアテンションの二次複雑さによって引き起こされる長いTime-to-First-Token(TTFT)遅延問題を解決するための新しい方法を提供します。従来のアプローチは、追加の事前訓練または微調整が必​​要であり、しばしばモデル精度を犠牲にしているが、本論文では理論的および実験的基盤に基づいてほとんど損失のない希少アテンションを提示する。実行時にヘッドごとのスパースパターンを低コストで動的にキャプチャすることが重要であることを明らかにし、このために適応構造化とほとんど損失のないスパースアテンションであるSampleAttentionを提案します。 SampleAttentionは、観察されたかなりのスパースパターンを利用して、隣接するトークンの固定比率にアテンションを集中してローカルウィンドウパターンをキャプチャし、低コストで最小限のキー値セットを適応的に選択する2段階のクエリベースのキー値フィルタリング方式を使用して列ストライプパターンをキャプチャします。包括的な評価の結果、SampleAttentionは既存のLLMのvanilla attentionをほとんど精度を失うことなく置き換えることができ、FlashAttentionと比較してTTFTを最大2.42倍に減らすことができます。

Takeaways、Limitations

Takeaways:
長いコンテキストウィンドウを持つLLMのTTFT遅延問題を効果的に解決する新しいスパースアテンション技術の提示
追加のPretrainingまたはfinetuningなしで既存のLLMに適用可能。
FlashAttentionと比較してTTFTを大幅に削減しながら、精度の損失はほとんどありません。
実行時にヘッドごとのスパースパターンを動的に捕捉する効率的な方法の提示
Limitations:
SampleAttentionのパフォーマンスがさまざまなLLMアーキテクチャとコンテキストウィンドウサイズにどのように一般化できるかについてのさらなる研究が必要です。
他の高度なスパースアテンション技術とのより包括的な比較分析が必要です。
非常に長いコンテキストウィンドウのパフォーマンス評価の欠如。
👍