Dans cet article, nous présentons un nouvel ensemble de données, MultiClip-Bench, qui propose des paires de questions-réponses denses, basées sur des descriptions et des instructions, adaptées aux scénarios multi-plans. Cette approche vise à relever les défis rencontrés par les modèles de langage vidéo (VideoLLM) existants dans les scénarios multi-plans (clips vidéo contenant différents angles de caméra ou changements de scène). Nous analysons le problème de l'encodage incomplet des informations sur les objets par les modèles existants et proposons un nouveau modèle, IPFormer-VideoLLM, qui injecte des caractéristiques au niveau des objets sous forme d'invites d'instance via une concaténation efficace basée sur l'attention. Les résultats expérimentaux démontrent que l'ensemble de données et les modèles proposés améliorent significativement la compréhension des vidéos multi-scènes et offrent des avantages distinctifs sur divers benchmarks vidéo.