Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SampleAttention : Accélération quasi sans perte de l'inférence LLM à contexte long avec attention éparse structurée adaptative

Created by
  • Haebom

Auteur

Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Guanyu Feng, Xin Lv, Xiao Chuanfu, Dahua Lin, Chao Yang

Contour

Cet article présente une nouvelle approche pour traiter les longs délais de génération du premier jeton (TTFT) causés par la complexité quadratique de l'attention classique dans les modèles de langage à grande échelle (LLM) prenant en charge de très longues fenêtres contextuelles. Alors que les approches existantes nécessitent un pré-entraînement ou un réglage fin supplémentaire et compromettent souvent la précision du modèle, cet article présente une approche d'attention parcimonieuse quasi sans perte, basée sur des preuves théoriques et expérimentales. Nous soulignons l'importance de capturer dynamiquement et économiquement les motifs parcimonieux spécifiques à chaque tête lors de l'exécution. Pour y parvenir, nous proposons SampleAttention, une approche d'attention parcimonieuse adaptative, structurée et quasi sans perte. SampleAttention exploite les motifs parcimonieux significatifs observés pour concentrer l'attention sur un pourcentage fixe de jetons adjacents afin de capturer les motifs de fenêtres locales. De plus, elle utilise une approche de filtrage clé-valeur en deux étapes basée sur des requêtes qui sélectionne de manière adaptative un ensemble clé-valeur minimal à faible coût pour capturer les motifs de bandes de colonnes. Les résultats d'une évaluation complète montrent que SampleAttention peut remplacer l'attention vanille dans le LLM traditionnel avec presque aucune perte de précision et réduire le TTFT jusqu'à 2,42x par rapport à FlashAttention.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle technique d'attention clairsemée qui résout efficacement le problème de retard TTFT de LLM avec de longues fenêtres de contexte.
Applicable aux LLM existants sans formation préalable ni réglage supplémentaire.
Réduit considérablement le TTFT par rapport à FlashAttention sans pratiquement aucune perte de précision.
Nous présentons une méthode efficace pour capturer dynamiquement des motifs clairsemés par tête au moment de l'exécution.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer dans quelle mesure les performances de SampleAttention se généralisent à différentes architectures LLM et tailles de fenêtres de contexte.
Une analyse comparative plus complète avec d’autres techniques avancées d’attention clairsemée est nécessaire.
Manque d'évaluation des performances pour les fenêtres de contexte extrêmement longues.
👍