Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Softplus Attention avec repondération améliore l'extrapolation de longueur dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Bo Gao, Michael W. Spratling

Contour

Cet article propose un nouveau mécanisme d'attention pour remédier à l'instabilité numérique et à la dégradation des performances de l'attention softmax conventionnelle pour les jetons d'inférence de grande longueur. Nous décomposons l'opération softmax en une transformation positive non linéaire et une étape de régularisation $l_1$, démontrant que cette régularisation est essentielle au maintien des performances du modèle. Dans la première étape, nous introduisons une fonction d'activation softplus numériquement stable au lieu d'une fonction exponentielle et un facteur d'échelle dynamique basé sur l'entropie invariante, surpassant ainsi l'attention softmax conventionnelle. Dans la deuxième étape, nous introduisons un mécanisme de repondération qui affine la distribution de l'attention, amplifiant les pondérations importantes et diminuant les pondérations faibles afin de concentrer plus efficacement l'attention sur les jetons pertinents. La combinaison de ces deux approches garantit la stabilité numérique et permet d'obtenir d'excellents résultats sur les tâches d'extraction de contexte longues et les tests de performance en aval standard, tout en maintenant une perte de validation quasi constante, même à 16 fois la durée d'apprentissage, et en améliorant considérablement les performances d'extrapolation de longueur.

Takeaways, Limitations

Takeaways:
Une solution efficace à l’instabilité numérique et aux mauvaises performances dans le traitement à long contexte de l’attention softmax est présentée.
Amélioration des performances du mécanisme d'attention grâce à la fonction d'activation soft-plus, au facteur d'échelle dynamique et au mécanisme de repondération.
Obtenez d’excellentes performances sur les tâches d’extraction de contexte longues et les benchmarks en aval.
Maintient des performances stables même dans des contextes 16 fois plus longs que la durée d'apprentissage.
Limitations:
L’analyse de la complexité informatique de la méthode proposée peut faire défaut.
D’autres résultats expérimentaux sur différents types d’ensembles de données à contexte long peuvent être nécessaires.
Des recherches supplémentaires pourraient être nécessaires pour déterminer les performances de généralisation de la méthode proposée.
👍