Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dynamic Accumulated Attention Map for Interpreting Evolution of Decision-Making in Vision Transformer

Created by
  • Haebom
Category
Empty

저자

Yi Liao, Yongsheng Gao, Weichuan Zhang

개요

본 논문에서는 Vision Transformer (ViT) 모델의 의사결정 과정을 시각화하기 위한 새로운 방법인 Dynamic Accumulated Attention Map (DAAM)을 제안합니다. 기존의 시각적 설명 방법들은 ViT 내부 구조의 어텐션 흐름을 보여주지 못하는 한계가 있었는데, DAAM은 각 ViT 블록의 self-attention 모듈에서 생성된 [class] 토큰을 활용하여 공간적 특징 정보를 구성하고 저장하는 새로운 분해 모듈을 제안하여 이 문제를 해결합니다. 지도 학습 기반 ViT 모델의 경우 분류 점수를 분해하여 채널 중요도 계수를 얻고, 자가 지도 학습 기반 ViT 모델의 경우 차원별 중요도 가중치를 사용하여 채널 중요도 계수를 계산합니다. 이러한 공간적 특징과 채널 중요도 계수를 선형 결합하여 각 블록의 어텐션 맵을 생성하고, 블록 단위로 어텐션 맵을 누적하여 동적인 어텐션 흐름을 보여줍니다. 완전 연결 계층을 분류기로 사용하는 ViT 모델뿐만 아니라 자가 지도 학습 기반 ViT 모델에도 효과적임을 정량적 및 정성적 분석을 통해 검증하였으며, 코드는 Github에서 공개합니다.

시사점, 한계점

시사점:
ViT 모델 내부의 어텐션 흐름을 최초로 시각화하는 방법 제시
지도 학습 및 자가 지도 학습 기반 ViT 모델 모두에 적용 가능
각 블록의 의사결정 어텐션의 진화 과정을 시각적으로 보여줌
정량적 및 정성적 분석을 통해 효과성 검증
오픈소스 코드 공개
한계점:
논문에서 구체적인 한계점은 언급되지 않음. 추가적인 실험이나 비교 분석을 통해 더욱 폭넓은 검증이 필요할 수 있음.
👍