본 논문은 치과 감정과 같은 고위험 응용 분야에서 딥러닝의 실질적인 채택을 제한하는 모델의 '블랙박스' 특성을 해결하기 위한 프레임워크를 제시합니다. 하악 제2대구치(치아 37)와 제3대구치(치아 38)의 자동 단계 설정에서 나타나는 성능 차이를 사례 연구로 활용하여, 합성곱 오토인코더(AE)와 비전 트랜스포머(ViT)를 결합한 프레임워크를 제안합니다. 이 프레임워크는 기준 ViT 모델보다 두 치아 모두에 대한 분류 정확도를 향상시키며, 치아 37의 경우 0.712에서 0.815로, 치아 38의 경우 0.462에서 0.543으로 증가시킵니다. 성능 향상 외에도, AE의 잠재 공간 지표 및 이미지 재구성 분석을 통해 성능 격차가 데이터 중심적임을 밝히고, 치아 38 데이터셋의 높은 클래스 내 형태 변이성이 주요 제한 요소임을 제시합니다. 어텐션 맵과 같은 단일 해석 방식에 의존하는 것의 부적절성을 강조하며, 정확도 향상과 모델의 불확실성 원인 제공을 통해 전문가의 의사 결정을 지원하는 강력한 도구를 제공합니다.