Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Frequency-Aware Token Reduction for Efficient Vision Transformer

Created by
  • Haebom
Category
Empty

저자

Dong-Jae Lee, Jiwan Hur, Jaehyun Choi, Jaemyung Yu, Junmo Kim

개요

Vision Transformers는 다양한 컴퓨터 비전 작업에서 뛰어난 성능을 보였지만, 토큰 길이에 대한 2차 계산 복잡성은 여전히 중요한 과제이다. 이 문제를 해결하기 위해 토큰 감소 방법이 널리 연구되었다. 그러나 기존 접근 방식은 종종 랭크 붕괴 및 과도한 스무딩 현상과 같은 self-attention의 주파수 특성을 간과한다. 본 논문에서는 랭크 붕괴를 완화하여 성능을 유지하면서 계산 효율성을 개선하는 주파수 인식 토큰 감소 전략을 제안한다. 제안하는 방법은 토큰을 고주파수 토큰과 저주파수 토큰으로 분할한다. 고주파수 토큰은 선택적으로 보존하고, 저주파수 토큰은 필수적인 저주파수 구성 요소를 유지하기 위해 압축된 직류(DC) 토큰으로 집계한다. 광범위한 실험과 분석을 통해, 제안하는 방식이 계산 오버헤드를 줄이고 랭크 붕괴 및 과도한 스무딩을 완화하면서 정확도를 크게 향상시킴을 입증했다. 또한, 이전 방법들을 분석하여 그들의 암묵적인 주파수 특성과 한계를 밝힌다.

시사점, 한계점

시사점:
Vision Transformer의 계산 효율성을 향상시키는 새로운 주파수 기반 토큰 감소 전략 제안.
랭크 붕괴 및 과도한 스무딩 현상 완화.
정확도를 유지하면서 계산 오버헤드 감소.
기존 토큰 감소 방법들의 주파수 특성 및 한계 분석.
한계점:
구체적인 구현 세부 사항 및 특정 데이터셋에서의 성능 비교에 대한 정보 부족.
다른 Vision Transformer 아키텍처 및 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
제안하는 방법의 최적 하이퍼파라미터 설정에 대한 추가적인 탐색 필요.
👍