본 논문은 의료 영상 분류에서 우수한 정확도를 보이는 비전 트랜스포머(ViT)가 자체 크기와 복잡한 자기 주의 메커니즘으로 인해 그 표현이 의미적으로 명확하지 않다는 점을 밝힙니다. 투영된 기울기 기반 알고리즘을 사용하여, ViT 표현이 의미론적으로 취약하며 미세한 변화에도 민감하게 반응함을 보여줍니다. 즉, 인지할 수 없는 차이를 가진 이미지는 매우 다른 표현을 가지며, 반대로 의미론적으로 다른 클래스에 속해야 하는 이미지는 거의 동일한 표현을 가질 수 있습니다. 이러한 취약성은 분류 결과의 신뢰성을 저하시켜, 미세한 변화만으로도 분류 정확도가 60% 이상 감소할 수 있음을 보여줍니다. 본 연구는 의료 영상 분류에서 ViT 표현의 의미론적 부족을 체계적으로 보여주는 최초의 연구이며, 안전 중요 시스템에서의 ViT 적용에 대한 중요한 과제를 제시합니다.