Nous proposons l'élagage adaptatif des calculs (ACP) pour améliorer l'efficacité du transformateur d'oubli (FoX). FoX améliore les performances par rapport au transformateur traditionnel en introduisant une porte d'oubli pour l'attention softmax, mais de nombreuses têtes d'attention ont tendance à oublier rapidement les informations. L'ACP résout ce problème en supprimant dynamiquement les calculs impliquant des dépendances entrées-sorties fortement atténuées par la porte d'oubli. Il effectue l'élagage en toute sécurité grâce à un seuil d'élagage défini dynamiquement, et l'application de l'ACP à FoX lors du pré-entraînement du modèle de langage a réduit les FLOP et les accès mémoire d'environ 70 %. Cela a entraîné une réduction de 50 à 70 % du temps d'exécution de l'attention (soit une accélération de 2 à 3 fois supérieure) et une augmentation de 10 à 40 % du débit d'entraînement de bout en bout. Les économies de calcul sont plus importantes pour les contextes plus longs. Nous avons obtenu cette accélération sans compromettre les performances.