Bài báo này chỉ ra rằng bất chấp những tiến bộ trong các mô hình ngôn ngữ quy mô lớn (LLM) và tăng cường đa phương thức (MLLM), vẫn khó có thể xử lý và hiểu hiệu quả nội dung video kéo dài hàng phút hoặc hàng giờ. Mặc dù các mô hình gần đây như Video-XL-2 đã cải thiện hiệu quả và những tiến bộ trong mã hóa vị trí như HoPE và VideoRoPE++ đã cải thiện khả năng hiểu không gian-thời gian, vẫn còn những hạn chế về mặt tính toán và bộ nhớ trong việc xử lý các mã thông báo hình ảnh khổng lồ trong các chuỗi video dài. Do đó, bài báo này đề xuất "Hiểu video vô hạn", khả năng liên tục xử lý, hiểu và lập luận về dữ liệu video có độ dài vô hạn, là mục tiêu tiếp theo của nghiên cứu đa phương tiện. Điều này sẽ thúc đẩy các đổi mới trong các lĩnh vực như kiến trúc phát trực tuyến, cơ chế bộ nhớ liên tục, biểu diễn phân cấp và thích ứng, lập luận theo sự kiện và các mô hình đánh giá mới. Dựa trên nghiên cứu gần đây về hiểu video dài/siêu dài và các lĩnh vực liên quan, bài báo này trình bày những thách thức chính và các hướng nghiên cứu chính để đạt được khả năng chuyển đổi này.