Kevin Galim、Ethan Ewer、Wonjun Kang、Minjae Lee、Hyung Il Koo、Kangwook Lee
概要
本論文では、Transformerの二次計算の複雑さと線形メモリの複雑さのために、長文Large Language Model(LLM)の推論最適化がますます重要になるにつれて、トークンまたはKVペアの重要度を大まかに予測する既存の近似方法(キー値(KV)キャッシュ削除、スパースアテンション、プロンプトKなど)ペアの重要度をより正確に予測する新しいフレームワークを提案します。具体的には、ドラフトモデルの出力を活用して各KVペアの重要度を正確に評価し、KVキャッシュ消去をより効果的に行うSpecKVと、ドラフトモデルのアテンションアクティベーションを使用して、重要でないプロンプトトークンを識別して削除するSpecPCの2つの方法を提示する。理論的および実験的分析は方法の妥当性を示し,ドラフトモデルとターゲットモデルのアテンションパターンとの強い相関関係を示す。長文脈ベンチマークの広範な実験は、既存の基準モデルよりも精度が着実に高く、メモリ使用量、レイテンシ、およびスループットの改善を維持することを示しています。ソースコードはhttps://github.com/furiosa-ai/draft-based-approx-llmで確認できます。