Para abordar los desafíos de la comprensión de imágenes a largo plazo mediante un Modelo de Lenguaje de Visión a Gran Escala (VLLM), este artículo presenta un marco de VLLM Balanceado (B-VLLM) que utiliza un módulo de selección de fotogramas adaptativo condicional al texto, una técnica de fusión de tokens de fotogramas temporales, un módulo de muestreo de tokens espaciales y una estrategia de fusión. Para abordar los problemas que presentan los VLLM existentes, como la pérdida de información temporal o espacial debido al submuestreo de la imagen o la reducción del número de tokens visuales en cada fotograma, proponemos un método que utiliza eficazmente las claves espaciotemporales relevantes para la tarea, a la vez que limita el número de tokens visuales dentro de la ventana de contexto del VLLM. Los resultados experimentales demuestran que el B-VLLM presenta un rendimiento superior en diversas pruebas de comprensión de imágenes.