Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EDIT: Enhancing Vision Transformers by Mitigating Attention Sink through an Encoder-Decoder Architecture

Created by
  • Haebom

저자

Wenfeng Feng, Guoying Sun

개요

본 논문에서는 Vision Transformer 모델에서 관찰되는 어텐션 싱크 현상을 완화하기 위해 새로운 아키텍처인 EDIT (Encoder-Decoder Image Transformer)를 제안합니다. 어텐션 싱크는 과도한 어텐션이 [CLS] 토큰에 할당되어 모델의 이미지 패치 처리 능력을 왜곡하는 현상입니다. 이를 해결하기 위해, 인코더는 이미지 패치를 처리하기 위해 셀프 어텐션을 사용하고, 디코더는 [CLS] 토큰에 집중하기 위해 크로스 어텐션을 사용하는 계층 정렬 인코더-디코더 아키텍처를 도입합니다. 기존의 인코더-디코더 프레임워크와 달리, 디코더는 고수준 인코더 표현에만 의존하는 것이 아니라 저수준 특징부터 정보를 추출하여 계층별로 표현을 점진적으로 개선합니다. EDIT는 순차적인 어텐션 맵을 통해 시각적으로 해석이 가능하며, 주요 이미지 특징에 대한 계층별 초점을 보여줍니다. ImageNet-1k 및 ImageNet-21k에 대한 실험과 전이 학습 작업을 통해 EDIT가 DeiT3 모델보다 일관되게 성능 향상을 달성함을 보여줍니다. 이러한 결과는 EDIT의 설계가 어텐션 싱크를 해결하고 시각적 특징 추출을 개선하는 데 효과적임을 강조합니다.

시사점, 한계점

시사점:
Vision Transformer의 어텐션 싱크 문제를 효과적으로 해결하는 새로운 아키텍처(EDIT) 제시
계층 정렬 인코더-디코더 구조를 통해 저수준부터 고수준 특징을 점진적으로 처리하여 성능 향상
순차적 어텐션 맵을 통한 모델의 해석성 향상
ImageNet-1k, ImageNet-21k 및 전이 학습 작업에서 DeiT3 모델 대비 성능 향상 확인
한계점:
제시된 아키텍처의 계산 비용 및 메모리 사용량에 대한 분석 부족
다른 최신 Vision Transformer 모델들과의 비교 분석이 더 필요함
특정 데이터셋에 대한 성능 향상이 다른 데이터셋으로 일반화될 수 있는지에 대한 추가 연구 필요
👍