MiVID는 비디오 프레임 보간을 위한 경량, 자기 지도, 확산 기반 프레임워크입니다. 3D U-Net 백본과 transformer 스타일의 temporal attention을 결합하여 명시적인 모션 추정 없이, hybrid masking 방식을 통해 가려짐과 모션 불확실성을 시뮬레이션합니다. 코사인 기반의 점진적 마스킹과 적응형 손실 스케줄링을 사용하여 고 프레임 속도 감독 없이도 견고한 시공간 표현을 학습합니다. UCF101-7 및 DAVIS-7 데이터 세트에서 평가되었으며, CPU에서 훈련되고 9 프레임 비디오 세그먼트를 사용하며, 50 에포크만에 경쟁력 있는 결과를 달성했습니다.