Este artículo destaca las limitaciones de los modelos lingüísticos multimodales a gran escala y los conjuntos de datos de evaluación existentes, centrados en la comprensión de vídeos cortos (menos de un minuto), y destaca su incapacidad para satisfacer las necesidades de aplicaciones prácticas, como la inteligencia incorporada para la toma de decisiones a largo plazo, las reseñas y debates cinematográficos exhaustivos y los comentarios deportivos en tiempo real, que requieren la comprensión de vídeos largos. Para abordar este problema, proponemos LVBench, un novedoso punto de referencia para la comprensión de vídeos largos. LVBench consta de diversos vídeos y tareas disponibles públicamente, orientados a la comprensión de vídeos largos y la extracción de información, diseñados para evaluar la memoria a largo plazo y las capacidades de comprensión extendida de los modelos multimodales. Los resultados experimentales demuestran que los modelos multimodales actuales aún presentan un rendimiento inferior en estas complejas tareas de comprensión de vídeos largos. LVBench tiene como objetivo estimular el desarrollo de modelos más avanzados que puedan abordar las complejidades de la comprensión de vídeos largos, y sus datos y código están disponibles públicamente.