Cet article propose une technique efficace de tolérance aux pannes pour les erreurs logicielles survenant lors du processus d'inférence d'un modèle Transformer. Les frameworks de tolérance aux pannes existants, basés sur des unités de calcul, souffrent d'une surcharge de calcul et de mémoire importante, ainsi que d'une évolutivité limitée. Cet article aborde ces problèmes en traitant les calculs du module d'attention comme un noyau unique, implémentant une tolérance aux pannes de bout en bout. Il offre une protection complète contre les erreurs pour les opérations non linéaires et conçoit un algorithme de tolérance aux pannes basé sur les pas (ABFT) pour les modules linéaires afin d'éviter la communication inter-threads. Les résultats expérimentaux démontrent une accélération jusqu'à 7,56 fois supérieure aux méthodes existantes, avec une surcharge moyenne de tolérance aux pannes de 13,9 %.