En este artículo, presentamos un nuevo conjunto de datos, MultiClip-Bench, que incluye descripciones densas y pares de preguntas y respuestas basados en instrucciones, adaptados a escenarios multitoma. Este conjunto aborda los desafíos que enfrentan los Video Large Language Models (VideoLLM) en escenarios multitoma (videoclips con diferentes ángulos de cámara o cambios de escena). Analizamos el problema de que los modelos existentes codifican de forma incompleta la información de los objetos y proponemos un nuevo modelo, IPFormer-VideoLLM, que inyecta características a nivel de objeto como indicaciones de instancia mediante una concatenación eficiente basada en la atención. Los resultados experimentales demuestran que el conjunto de datos y los modelos propuestos mejoran significativamente la comprensión de video multiescena y ofrecen ventajas significativas en diversas pruebas de referencia de video.