본 논문은 장시간 비디오 처리에서의 높은 계산 비용 문제를 해결하기 위해, 차별적 증류(differential distillation) 원리를 기반으로 한 계층적 비디오-언어 모델 ViLaMP를 제안합니다. ViLaMP는 질의와 관련성이 높으면서 시간적 독립성을 유지하는 차별적 키프레임 선택과, 키프레임이 아닌 프레임에서 질의와 관련된 특징만을 보존하는 차별적 특징 병합이라는 두 가지 주요 메커니즘을 통해 혼합 정밀도(mixed precision)로 시간이 긴 비디오를 처리합니다. 이를 통해 키프레임은 모든 정보를 유지하고, 비키프레임은 가장 중요한 특징만으로 축소되어 계산 효율성을 높입니다. 실험 결과, ViLaMP는 네 가지 비디오 이해 벤치마크에서, 특히 장시간 콘텐츠에서 우수한 성능을 보였으며, 단일 NVIDIA A100 GPU에서 최대 10,000 프레임의 초장시간 비디오를 처리할 수 있음을 보여줍니다.