본 논문은 Transformer 모델의 추론 과정에서 발생하는 소프트 에러에 대한 효율적인 내결함성(Fault Tolerance) 기법을 제안합니다. 기존의 연산 단위 기반 내결함성 프레임워크는 계산 및 메모리 오버헤드가 크고 확장성이 제한적이라는 한계를 가지고 있습니다. 본 논문에서는 어텐션 모듈 내 연산을 단일 커널로 취급하여 엔드-투-엔드 내결함성을 구현함으로써 이러한 문제를 해결합니다. 비선형 연산에 대한 포괄적인 에러 보호를 제공하며, 선형 모듈에는 스트라이드 알고리즘 기반 내결함성(ABFT)을 설계하여 스레드 간 통신을 피합니다. 실험 결과, 기존 방법 대비 최대 7.56배의 속도 향상을 달성하였으며, 평균 내결함성 오버헤드는 13.9%입니다.
시사점, 한계점
•
시사점:
◦
Transformer 모델의 추론 과정에서 발생하는 소프트 에러에 대한 효율적인 해결책 제시.
◦
기존 방법 대비 훨씬 향상된 속도와 효율성을 제공하는 엔드-투-엔드 내결함성 기법 제시.
◦
스트라이드 알고리즘 기반 내결함성(ABFT)을 통해 선형 모듈의 효율적인 에러 보호 가능성 제시.
•
한계점:
◦
제안된 방법의 효과가 특정 하드웨어 환경이나 특정 크기의 Transformer 모델에 국한될 가능성 존재.