Este artículo señala que, a pesar de los avances en modelos de lenguaje a gran escala (LLM) y aumento multimodal (MLLM), aún es difícil procesar y comprender eficazmente contenido de video con una duración de minutos u horas. Si bien modelos recientes como Video-XL-2 han mejorado la eficiencia, y los avances en codificación posicional como HoPE y VideoRoPE++ han mejorado la comprensión espaciotemporal, aún existen limitaciones computacionales y de memoria para procesar la gran cantidad de tokens visuales en secuencias de video largas. Por lo tanto, este artículo propone la "Comprensión Infinita de Video", la capacidad de procesar, comprender y razonar continuamente sobre datos de video de duración infinita, como el próximo objetivo de la investigación multimedia. Esto impulsará innovaciones en áreas como arquitecturas de streaming, mecanismos de memoria persistente, representaciones jerárquicas y adaptativas, razonamiento basado en eventos y nuevos paradigmas de evaluación. Con base en investigaciones recientes sobre la comprensión de videos largos/ultralargos y campos relacionados, este artículo presenta desafíos clave y las principales líneas de investigación para lograr esta capacidad transformadora.