본 논문은 비전 및 언어 사전 학습 작업에서 뛰어난 성능을 보이는 Transformer 모델의 추론 효율성 문제를 해결하기 위해, 추론 시의 어텐션 메커니즘의 중복성에 착안하여 어텐션 블록을 학습 가능한 시퀀스-투-시퀀스 모듈(LSTM 예시)로 대체하는 FAR(Function-preserving Attention Replacement) 프레임워크를 제안합니다. FAR은 블록 단위 증류 목적 함수와 전역 구조 가지치기 프레임워크를 사용하여 사전 학습된 Transformer로부터 효율적인 LSTM 기반 모델을 생성합니다. DeiT 계열의 비전 Transformer를 대상으로 ImageNet 및 다양한 하위 작업에서 원 모델과 동등한 정확도를 더 적은 파라미터와 지연 시간으로 달성함을 실험적으로 보여줍니다. 또한, FAR이 Transformer의 어텐션 모듈에서 학습된 의미적 토큰 관계와 토큰 간 상관관계를 유지함을 분석합니다.