본 논문은 Transformer 모델의 추론 과정에서 발생할 수 있는 소프트 에러로 인한 성능 저하 문제를 해결하기 위해, 종단 간 오류 복원이 가능한 어텐션 메커니즘인 EFTA(end-to-end fault tolerant attention) 프레임워크를 제안합니다. 기존의 분리된 커널을 사용하는 방법과 달리, EFTA는 완전히 융합된 어텐션 커널 내에서 오류 검출 및 수정을 수행하여 불필요한 데이터 접근을 줄이고 메모리 오류를 완화합니다. 또한, 텐서 체크섬을 이용한 아키텍처 인식 알고리즘 기반 오류 허용(ABFT), 선택적 뉴런 값 제한, 통합 검증 등의 기법을 도입하여 오류 탐지 및 복구의 효율성을 높였습니다. 실험 결과, EFTA는 기존 방법보다 최대 7.56배 빠르며, 평균 오류 허용 오버헤드는 13.9%입니다.