Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers

Created by
  • Haebom

저자

Xuwei Xu, Yang Li, Yudong Chen, Jiajun Liu, Sen Wang

개요

본 논문은 비전 트랜스포머(ViT)의 추론 지연 시간에 있어서 어텐션 레이어보다 피드포워드 네트워크(FFN) 레이어가 더 큰 영향을 미친다는 것을 밝혔습니다. 특히 모델 크기가 커질수록 FFN 레이어의 영향이 더욱 커집니다. 이를 바탕으로, 본 논문에서는 테스트 중 효율적인 FFN 레이어를 위한 사후 훈련 구조적 재매개변수화를 가능하게 하는 새로운 채널 유휴 메커니즘을 제안합니다. 이 메커니즘은 일부 특징 채널을 유휴 상태로 두어 비선형 활성화 함수를 우회하게 하여 선형 경로를 형성함으로써 추론 중 구조적 재매개변수화를 가능하게 합니다. 이를 통해 개발된 ReParameterizable Vision Transformers (RePaViTs)는 다양한 ViT에서 상당한 지연 시간 감소를 달성하며, 정확도 저하를 최소화하거나 오히려 향상시키기도 합니다. 특히, RePa-ViT-Large와 RePa-ViT-Huge는 동일한 훈련 전략 하에서 각각 66.8%와 68.7%의 속도 향상과 1.7% 및 1.1%의 상위 1위 정확도 향상을 보였습니다. 본 논문의 RePaViT는 FFN 레이어에 구조적 재매개변수화를 적용하여 ViT를 가속화한 최초의 연구이며, 효율적인 ViT를 위한 유망한 방향을 제시합니다. 소스 코드는 https://github.com/Ackesnal/RePaViT 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
ViT의 추론 속도 향상을 위해 FFN 레이어 최적화에 집중해야 함을 시사.
제안된 RePaViT는 대규모 ViT에서 상당한 속도 향상과 정확도 개선을 달성.
사후 훈련 구조적 재매개변수화 기법을 통해 효율적인 ViT 구현 가능성 제시.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다른 종류의 네트워크 구조에 대한 적용 가능성 검증 필요.
채널 유휴 메커니즘의 최적화 파라미터 설정에 대한 추가적인 연구 필요.
👍