Transformer 기반의 Vision Transformer (ViT) 모델은 컴퓨터 비전 (CV) 분야에서 뛰어난 성능을 보이지만, 높은 계산 자원 요구량과 복잡성으로 인해 모델의 의사 결정 과정을 이해하기 어렵다는 문제점을 가지고 있습니다. 본 논문에서는 잔차 신경망과 상미분 방정식 (ODE) 간의 연결에 착안하여, ODE 시스템으로 재구성된 ODE-ViT를 제안합니다. ODE-ViT는 잘 정의되고 안정적인 동역학 조건을 만족하며, CIFAR-10 및 CIFAR-100 데이터셋에서 경쟁력 있는 성능을 보이면서도 기존 ODE 기반 Transformer 방식보다 적은 수의 파라미터를 사용합니다. 또한, 기존 ViT 모델을 teacher로 활용하여 ODE-ViT의 성능을 향상시키는 teacher-student 프레임워크를 제안합니다.