본 논문은 컴퓨터 비전에서 심층 신경망, 특히 Transformer 기반 모델의 작동 원리를 이해하기 위한 연구이다. 기존 연구들이 주로 Convolutional Neural Network (CNN)의 중간 표현을 시각화하는 데 집중한 것과 달리, 본 연구는 Detection Transformer와 Vision Transformer의 중간층으로부터 입력 이미지를 재구성하는 역 모델을 학습하는 모듈 방식을 적용하였다. 이를 통해 재구성된 이미지의 정성적 및 정량적 평가를 수행하여, 상황에 따른 형태 및 이미지 디테일 보존, 계층 간 상관관계, 색상 변화에 대한 강건성 등의 측면에서 두 아키텍처의 유사점과 차이점을 분석하고, Transformer 기반 비전 모델의 작동 원리에 대한 통찰력을 제공한다. 실험 재현을 위한 코드는 공개되어 있다.