Cet article propose un nouveau mécanisme d'attention pour remédier à l'instabilité numérique et à la dégradation des performances de l'attention softmax conventionnelle pour les jetons d'inférence de grande longueur. Nous décomposons l'opération softmax en une transformation positive non linéaire et une étape de régularisation $l_1$, démontrant que cette régularisation est essentielle au maintien des performances du modèle. Dans la première étape, nous introduisons une fonction d'activation softplus numériquement stable au lieu d'une fonction exponentielle et un facteur d'échelle dynamique basé sur l'entropie invariante, surpassant ainsi l'attention softmax conventionnelle. Dans la deuxième étape, nous introduisons un mécanisme de repondération qui affine la distribution de l'attention, amplifiant les pondérations importantes et diminuant les pondérations faibles afin de concentrer plus efficacement l'attention sur les jetons pertinents. La combinaison de ces deux approches garantit la stabilité numérique et permet d'obtenir d'excellents résultats sur les tâches d'extraction de contexte longues et les tests de performance en aval standard, tout en maintenant une perte de validation quasi constante, même à 16 fois la durée d'apprentissage, et en améliorant considérablement les performances d'extrapolation de longueur.