Luoyang Sun, Cheng Deng, Jiwen Jiang, Xinjian Wu, Haifeng Zhang, Lei Chen, Lionel Ni, Jun Wang
概要
本論文は,大規模言語モデル(LLM)の性能向上に重要な役割を果たすアテンション機構の計算とメモリオーバーヘッド問題を解決するために, G rouped-Head Laten TA ttention(GTA)を提案します。 GTAは、アテンションマップを複数のヘッドで共有し、値キャッシュを潜在空間に圧縮する2つのコンポーネントで構成されています。これは、アテンション計算のFLOPを最大62.5%、KVキャッシュを最大70%削減し、メモリ使用量と計算の複雑さを低減しながらパフォーマンスを維持することを目指しています。その結果、GTAモデルはエンドツーエンドの推論速度を2倍に向上させる効果があります。