Pour pallier le coût de calcul élevé du traitement vidéo longue durée, cet article propose une nouvelle méthode appelée distillation différentielle. Cette méthode améliore l'efficacité de calcul en conservant les informations pertinentes pour la tâche tout en supprimant les informations redondantes. Basé sur ce principe, le modèle ViLAMP, développé, traite les vidéos longue durée avec une « précision mixte » grâce à la sélection différentielle d'images clés image par image et à la fusion différentielle de caractéristiques patch par patch. Les images clés conservent l'intégralité des informations, tandis que les images non clés ne conservent que les caractéristiques les plus importantes, réduisant ainsi la charge de calcul. Les résultats expérimentaux démontrent que ViLAMP est particulièrement performant sur les vidéos longue durée, capable de traiter des vidéos ultra-longues jusqu'à 10 000 images sur un seul GPU NVIDIA A100.