Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉLagage adaptatif du calcul pour le transformateur d'oubli

Created by
  • Haebom

Auteur

Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville

Contour

Nous proposons l'élagage adaptatif des calculs (ACP) pour améliorer l'efficacité du transformateur d'oubli (FoX). FoX améliore les performances par rapport au transformateur traditionnel en introduisant une porte d'oubli pour l'attention softmax, mais de nombreuses têtes d'attention ont tendance à oublier rapidement les informations. L'ACP résout ce problème en supprimant dynamiquement les calculs impliquant des dépendances entrées-sorties fortement atténuées par la porte d'oubli. Il effectue l'élagage en toute sécurité grâce à un seuil d'élagage défini dynamiquement, et l'application de l'ACP à FoX lors du pré-entraînement du modèle de langage a réduit les FLOP et les accès mémoire d'environ 70 %. Cela a entraîné une réduction de 50 à 70 % du temps d'exécution de l'attention (soit une accélération de 2 à 3 fois supérieure) et une augmentation de 10 à 40 % du débit d'entraînement de bout en bout. Les économies de calcul sont plus importantes pour les contextes plus longs. Nous avons obtenu cette accélération sans compromettre les performances.

Takeaways, Limitations

Takeaways:
Nous présentons une technique ACP qui améliore considérablement l’efficacité de FoX.
La vitesse de calcul de l'attention est améliorée de 2 à 3 fois en réduisant considérablement les FLOP et les accès mémoire.
Augmente le débit d’apprentissage de bout en bout de 10 à 40 %.
Son effet est plus important dans les contextes longs.
Obtenez des gains de vitesse sans sacrifier les performances.
Limitations:
La technique ACP est spécialisée pour FoX, et son applicabilité à d'autres modèles de transformateurs nécessite une étude plus approfondie.
Actuellement, les résultats sont limités à une implémentation spécifique (lien GitHub fourni) et une vérification supplémentaire est nécessaire pour déterminer la généralisabilité à d'autres implémentations ou environnements matériels.
👍