본 연구는 왜곡된 2D 스펙트로그램 이미지(관련 없는 내용 포함: 축 레이블, 제목, 컬러 바)로 미세 조정된 비전 트랜스포머(ViT)에서 개별 어텐션 헤드를 조사하여 기계적 해석성을 이용한 대규모 AI 모델의 안전성, 신뢰성 및 강건성 향상 가능성을 탐구했습니다. 외부 특징을 도입하여 트랜스포머 구성 요소가 관련 없는 정보를 어떻게 처리하는지 분석하고, 어텐션 맵을 사용하여 계층별 헤드 기여도를 평가했습니다. 초기 계층(13)의 헤드는 과제에 미치는 영향이 최소였으며, 제거 시 MSE 손실이 약간 증가(μ=0.11%, σ=0.09%)했습니다. 반면, 더 깊은 계층(예: 6 계층)의 헤드는 손실 증가가 3배 더 높았습니다(μ=0.34%, σ=0.02%). 중간 계층(611)은 단의미적 행동을 보이며, 특정 영역에만 집중했습니다. 일부 초기 헤드(1~4)는 단의미적이었지만 과제와 관련이 없었습니다(예: 텍스트 검출기, 모서리 또는 코너 검출기). 어텐션 맵은 단의미적 헤드(정확한 특정 영역 위치 확인)와 다의미적 헤드(여러 관련 없는 영역)를 구별했습니다. 이러한 결과는 ViT의 기능적 특수화를 보여주며, 헤드가 관련 정보와 외부 정보를 어떻게 처리하는지 보여줍니다. 트랜스포머를 해석 가능한 구성 요소로 분해함으로써 모델 이해를 높이고 취약성을 식별하여 더 안전하고 투명한 AI 개발에 기여했습니다.