RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers
Created by
Haebom
저자
Xuwei Xu, Yang Li, Yudong Chen, Jiajun Liu, Sen Wang
개요
본 논문은 비전 트랜스포머(ViT)의 추론 지연 시간에 있어서 어텐션 레이어보다 피드포워드 네트워크(FFN) 레이어가 더 큰 영향을 미친다는 것을 밝혔습니다. 특히 모델 크기가 커질수록 FFN 레이어의 영향이 더욱 커집니다. 이를 바탕으로, 본 논문에서는 테스트 중 효율적인 FFN 레이어를 위한 사후 훈련 구조적 재매개변수화를 가능하게 하는 새로운 채널 유휴 메커니즘을 제안합니다. 이 메커니즘은 일부 특징 채널을 유휴 상태로 두어 비선형 활성화 함수를 우회하게 하여 선형 경로를 형성함으로써 추론 중 구조적 재매개변수화를 가능하게 합니다. 이를 통해 개발된 ReParameterizable Vision Transformers (RePaViTs)는 다양한 ViT에서 상당한 지연 시간 감소를 달성하며, 정확도 저하를 최소화하거나 오히려 향상시키기도 합니다. 특히, RePa-ViT-Large와 RePa-ViT-Huge는 동일한 훈련 전략 하에서 각각 66.8%와 68.7%의 속도 향상과 1.7% 및 1.1%의 상위 1위 정확도 향상을 보였습니다. 본 논문의 RePaViT는 FFN 레이어에 구조적 재매개변수화를 적용하여 ViT를 가속화한 최초의 연구이며, 효율적인 ViT를 위한 유망한 방향을 제시합니다. 소스 코드는 https://github.com/Ackesnal/RePaViT 에서 확인할 수 있습니다.