본 논문에서는 Vision Transformer 모델에서 관찰되는 어텐션 싱크 현상을 완화하기 위해 새로운 아키텍처인 EDIT (Encoder-Decoder Image Transformer)를 제안합니다. 어텐션 싱크는 과도한 어텐션이 [CLS] 토큰에 할당되어 모델의 이미지 패치 처리 능력을 왜곡하는 현상입니다. 이를 해결하기 위해, 인코더는 이미지 패치를 처리하기 위해 셀프 어텐션을 사용하고, 디코더는 [CLS] 토큰에 집중하기 위해 크로스 어텐션을 사용하는 계층 정렬 인코더-디코더 아키텍처를 도입합니다. 기존의 인코더-디코더 프레임워크와 달리, 디코더는 고수준 인코더 표현에만 의존하는 것이 아니라 저수준 특징부터 정보를 추출하여 계층별로 표현을 점진적으로 개선합니다. EDIT는 순차적인 어텐션 맵을 통해 시각적으로 해석이 가능하며, 주요 이미지 특징에 대한 계층별 초점을 보여줍니다. ImageNet-1k 및 ImageNet-21k에 대한 실험과 전이 학습 작업을 통해 EDIT가 DeiT3 모델보다 일관되게 성능 향상을 달성함을 보여줍니다. 이러한 결과는 EDIT의 설계가 어텐션 싱크를 해결하고 시각적 특징 추출을 개선하는 데 효과적임을 강조합니다.