Cet article propose l'attention dynamique par masque (DMA), un mécanisme d'attention éparse par masque dynamique apprenable, pour résoudre le problème de complexité quadratique des mécanismes d'auto-attention standard, qui pose une limitation en raison de la demande croissante de modélisation de textes longs. La DMA exploite la parcimonie sensible au contenu et à la position pour réduire la complexité de calcul tout en minimisant la perte d'informations. Les masques épars sensibles au contenu sont générés dynamiquement à partir de représentations de valeurs pour se concentrer sur les informations importantes, tandis que l'attention éparse sensible à la position ignore les régions de calcul inutiles. Les résultats expérimentaux démontrent que la DMA surpasse divers mécanismes d'attention (attention multi-têtes, attention par fenêtre glissante, attention latente multi-têtes et attention éparse conventionnelle) en termes de perplexité dans le cadre de la loi d'échelle de Chinchilla, et démontre des performances et une efficacité supérieures dans les tâches de rappel associatif multi-requêtes. Notamment, dans une évaluation de modèle à 1,7 milliard de paramètres, la DMA surpasse l'attention multi-têtes sur les benchmarks standard et la tâche de l'aiguille dans une botte de foin.