Cet article aborde les limites des capacités de traitement vidéo à long terme des modèles linguistiques multimodaux à grande échelle (MLLM) pour un traitement efficace de la compréhension de vidéos longues. Les MLLM à contexte long existants souffrent d'une surcharge mémoire et de calcul importante pour le stockage et le référencement des caches clé-valeur (KV) pour le contexte visuel long. Les méthodes de compression visuelle existantes nécessitent d'encoder l'intégralité du contexte visuel avant la compression ou de pré-accéder aux questions, ce qui les rend peu pratiques. Pour remédier à ce problème, nous proposons StreamMem, un mécanisme de mémoire cache KV indépendant des requêtes, qui encode les nouvelles images vidéo en streaming et compresse le cache KV en utilisant les scores d'attention entre les jetons visuels et les jetons de questions courants, tout en conservant une mémoire KV de taille fixe pour permettre une réponse efficace aux questions (QA) dans les scénarios vidéo longs à mémoire limitée. Les résultats d'évaluation de trois tests de compréhension de vidéos longues et de deux tests de réponses aux questions de vidéos en streaming démontrent que StreamMem atteint des performances de pointe en matière de compression de cache KV indépendante des requêtes et est compétitif avec les méthodes de compression prenant en compte les requêtes.