Vision Transformers (ViTs)는 다양한 분야에서 강력한 성능을 보이지만, 특히 의료 영상 분야에서 해석 가능성이 낮아지는 문제가 있다. 본 논문은 이러한 문제를 해결하기 위해, contrastive learning 기반의 Randomized-MLP (RMLP) regularization을 제안한다. RMLP를 DINOv2에 fine-tuning하여 의료 및 자연 영상에서 성능을 유지하거나 향상시키면서, 더 해석 가능한 attention map을 생성하는 것을 확인했다. 또한, RMLP의 수학적 분석을 통해 ViT 기반 모델의 성능 향상에 대한 통찰력을 제공한다.