Vision Transformers(ViTs)의 우수한 성능에도 불구하고, 고해상도 입력에 대한 이차적 복잡성 문제를 해결하기 위해, 본 논문에서는 교차 아키텍처 증류 프레임워크인 ViT-Linearizer를 제시합니다. ViT-Linearizer는 활성화 매칭(activation matching)과 마스크 예측(masked prediction)이라는 두 가지 전략을 통해, ViT의 이차적 자기 주의력 지식을 선형 시간 복잡도를 갖는 순환 모델로 효과적으로 전달합니다. 활성화 매칭은 학생 모델의 토큰 간 의존성을 교사 모델과 정렬하도록 유도하고, 마스크 예측은 학생 모델이 보이지 않는 토큰에 대한 교사 모델의 표현을 예측하도록 합니다. 실험 결과, 고해상도 작업에서 상당한 속도 향상을 보이며, 특히 Mamba 기반 아키텍처의 성능을 향상시켜 ImageNet에서 84.3%의 top-1 정확도를 달성했습니다. 이는 대규모 시각 작업에 대한 RNN 기반 솔루션의 가능성을 보여줍니다.