Cet article présente une nouvelle approche pour traiter les longs délais de génération du premier jeton (TTFT) causés par la complexité quadratique de l'attention classique dans les modèles de langage à grande échelle (LLM) prenant en charge de très longues fenêtres contextuelles. Alors que les approches existantes nécessitent un pré-entraînement ou un réglage fin supplémentaire et compromettent souvent la précision du modèle, cet article présente une approche d'attention parcimonieuse quasi sans perte, basée sur des preuves théoriques et expérimentales. Nous soulignons l'importance de capturer dynamiquement et économiquement les motifs parcimonieux spécifiques à chaque tête lors de l'exécution. Pour y parvenir, nous proposons SampleAttention, une approche d'attention parcimonieuse adaptative, structurée et quasi sans perte. SampleAttention exploite les motifs parcimonieux significatifs observés pour concentrer l'attention sur un pourcentage fixe de jetons adjacents afin de capturer les motifs de fenêtres locales. De plus, elle utilise une approche de filtrage clé-valeur en deux étapes basée sur des requêtes qui sélectionne de manière adaptative un ensemble clé-valeur minimal à faible coût pour capturer les motifs de bandes de colonnes. Les résultats d'une évaluation complète montrent que SampleAttention peut remplacer l'attention vanille dans le LLM traditionnel avec presque aucune perte de précision et réduire le TTFT jusqu'à 2,42x par rapport à FlashAttention.