Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

StreamMem : Mémoire cache KV indépendante des requêtes pour la compréhension du streaming vidéo

Created by
  • Haebom

Auteur

Yanlai Yang, Zhuokai Zhao, Satya Narayan Shukla, Aashu Singh, Shlok Kumar Mishra, Lizhu Zhang, Mengye Ren

Contour

Cet article aborde les limites des capacités de traitement vidéo à long terme des modèles linguistiques multimodaux à grande échelle (MLLM) pour un traitement efficace de la compréhension de vidéos longues. Les MLLM à contexte long existants souffrent d'une surcharge mémoire et de calcul importante pour le stockage et le référencement des caches clé-valeur (KV) pour le contexte visuel long. Les méthodes de compression visuelle existantes nécessitent d'encoder l'intégralité du contexte visuel avant la compression ou de pré-accéder aux questions, ce qui les rend peu pratiques. Pour remédier à ce problème, nous proposons StreamMem, un mécanisme de mémoire cache KV indépendant des requêtes, qui encode les nouvelles images vidéo en streaming et compresse le cache KV en utilisant les scores d'attention entre les jetons visuels et les jetons de questions courants, tout en conservant une mémoire KV de taille fixe pour permettre une réponse efficace aux questions (QA) dans les scénarios vidéo longs à mémoire limitée. Les résultats d'évaluation de trois tests de compréhension de vidéos longues et de deux tests de réponses aux questions de vidéos en streaming démontrent que StreamMem atteint des performances de pointe en matière de compression de cache KV indépendante des requêtes et est compétitif avec les méthodes de compression prenant en compte les requêtes.

Takeaways, Limitations_

Takeaways:
Nous présentons une solution efficace au problème de compréhension de vidéos longues et limitées en mémoire grâce à un mécanisme de compression de cache KV indépendant des requêtes.
Présentation de la possibilité d'appliquer des applications de compréhension vidéo longue durée en temps réel ou quasi réel grâce au traitement vidéo en streaming.
Il présente des performances compétitives par rapport aux méthodes prenant en compte les requêtes.
Atteindre des performances de pointe en matière d'assurance qualité de vidéos longues et de tests d'assurance qualité de vidéos en streaming.
Limitations:
Les performances du StreamMem proposé sont limitées à un benchmark spécifique, et ses performances de généralisation sur d'autres types de longs ensembles de données vidéo nécessitent des recherches supplémentaires.
Il existe un risque de perte d’informations pendant le processus de compression, et une analyse plus approfondie est nécessaire sur l’étendue et l’impact de la perte.
Manque d'explications détaillées sur la conception et la sélection des jetons de requête courants. Des recherches supplémentaires sont nécessaires pour déterminer la conception optimale des jetons de requête.
👍