본 논문에서는 Vision Transformer (ViT) 모델의 의사결정 과정을 시각화하기 위한 새로운 방법인 Dynamic Accumulated Attention Map (DAAM)을 제안합니다. 기존의 시각적 설명 방법들은 ViT 내부 구조의 어텐션 흐름을 보여주지 못하는 한계가 있었는데, DAAM은 각 ViT 블록의 self-attention 모듈에서 생성된 [class] 토큰을 활용하여 공간적 특징 정보를 구성하고 저장하는 새로운 분해 모듈을 제안하여 이 문제를 해결합니다. 지도 학습 기반 ViT 모델의 경우 분류 점수를 분해하여 채널 중요도 계수를 얻고, 자가 지도 학습 기반 ViT 모델의 경우 차원별 중요도 가중치를 사용하여 채널 중요도 계수를 계산합니다. 이러한 공간적 특징과 채널 중요도 계수를 선형 결합하여 각 블록의 어텐션 맵을 생성하고, 블록 단위로 어텐션 맵을 누적하여 동적인 어텐션 흐름을 보여줍니다. 완전 연결 계층을 분류기로 사용하는 ViT 모델뿐만 아니라 자가 지도 학습 기반 ViT 모델에도 효과적임을 정량적 및 정성적 분석을 통해 검증하였으며, 코드는 Github에서 공개합니다.