본 논문은 장시간 비디오 처리에서 발생하는 높은 계산 비용 문제를 해결하기 위해 차등 증류(differential distillation)라는 새로운 접근 방식을 제시합니다. 기존의 토큰 가지치기 및 특징 병합 방법들이 시간적 의존성을 희생하거나 의미 정보를 희석하는 문제점을 극복하기 위해, ViLaMP라는 계층적 비디오-언어 모델을 개발했습니다. ViLaMP는 프레임 단위의 차등적 키프레임 선택과 패치 단위의 차등적 특징 병합이라는 두 가지 주요 메커니즘을 통해 장시간 비디오(최대 10,000 프레임)를 혼합 정밀도(mixed precision)로 처리합니다. 키프레임에는 완전한 정보를 유지하고, 비키프레임은 질의와 관련된 가장 중요한 특징만을 유지하여 계산 효율성을 높입니다. 실험 결과, ViLaMP는 네 가지 비디오 이해 벤치마크에서, 특히 장시간 콘텐츠에서 우수한 성능을 보였습니다.