본 논문은 심층 신경망, 특히 Transformer 기반 비전 모델(Detection Transformer, Vision Transformer)의 작동 원리를 이해하기 위해 특징 역전(feature inversion) 기법을 개선하고 적용한 연구입니다. 기존 특징 역전 기법의 효율성을 높인 새로운 모듈형 변형 기법을 제시하고, 이를 통해 재구성된 이미지를 정성적, 정량적으로 분석하여 모델의 내부 표현 방식에 대한 통찰을 얻었습니다. 구체적으로, 모델이 어떻게 문맥적 형태와 이미지 세부 정보를 인코딩하는지, 각 레이어 간의 상관관계는 어떠한지, 색상 변화에 대한 강건성은 어느 정도인지 등을 분석하였습니다. 실험 코드는 공개되어 있습니다.