본 논문은 비전 및 언어 사전 학습 작업에서 우수한 성능을 보이는 Transformer 모델의 추론 효율성 문제를 해결하기 위해, 추론 시 관찰되는 어텐션 메커니즘의 중복성에 착안하여 새로운 프레임워크인 FAR(Function-preserving Attention Replacement)을 제안합니다. FAR은 사전 학습된 Transformer의 모든 어텐션 블록을 LSTM과 같은 저렴한 시퀀스-투-시퀀스 모듈로 대체합니다. 블록 단위 증류 목표와 전역 구조 가지치기 프레임워크를 사용하여 다양한 효율적인 LSTM 기반 모델을 생성하며, DeiT 비전 Transformer 계열에서 ImageNet 및 여러 하위 작업에서 원본 모델과 동일한 정확도를 더 적은 파라미터와 지연 시간으로 달성함을 보여줍니다. 추가 분석을 통해 FAR이 Transformer의 어텐션 모듈에서 학습된 의미적 토큰 관계와 토큰 간 상관관계를 유지함을 확인합니다.