Để Giải quyết những thách thức trong việc hiểu hình ảnh dài hạn bằng Mô hình Ngôn ngữ Quy mô Lớn Thị giác (VLLM), bài báo này trình bày một khuôn khổ Balanced-VLLM (B-VLLM) sử dụng mô-đun chọn khung thích ứng có điều kiện văn bản, kỹ thuật hợp nhất mã thông báo khung thời gian, mô-đun lấy mẫu mã thông báo không gian và chiến lược hợp nhất. Để giải quyết các vấn đề mà các VLLM hiện tại gặp phải, chẳng hạn như mất thông tin thời gian hoặc không gian do giảm mẫu hình ảnh hoặc giảm số lượng mã thông báo thị giác trong mỗi khung, chúng tôi đề xuất một phương pháp sử dụng hiệu quả các tín hiệu không gian-thời gian liên quan đến tác vụ, đồng thời giới hạn số lượng mã thông báo thị giác trong độ dài cửa sổ ngữ cảnh của VLLM. Kết quả thực nghiệm chứng minh rằng B-VLLM thể hiện hiệu suất vượt trội trên nhiều tiêu chuẩn đánh giá hiểu hình ảnh khác nhau.