Để Giải quyết vấn đề tạo ra một số lượng lớn mã thông báo trực quan trong xử lý hình ảnh có độ phân giải cao, bài báo này đề xuất AVG-LLaVA, một mô hình đa phương thức quy mô lớn (LMM) có khả năng lựa chọn độ chi tiết trực quan một cách thích ứng dựa trên hình ảnh và chỉ thị đầu vào. AVG-LLaVA tạo ra các mã thông báo trực quan có nhiều độ chi tiết khác nhau thông qua nhiều lớp gộp và lựa chọn độ chi tiết phù hợp bằng cách sử dụng bộ định tuyến độ chi tiết trực quan bao gồm một Transformer, một MLP và một lớp cử tri. Hơn nữa, chúng tôi trình bày RGLF, một phương pháp đào tạo mới giúp căn chỉnh các dự đoán của bộ định tuyến với các tùy chọn của LMM mà không cần chú thích thủ công bổ sung. Kết quả thử nghiệm cho thấy AVG-LLaVA đạt hiệu suất tuyệt vời trên 11 điểm chuẩn, giảm đáng kể số lượng mã thông báo trực quan và cải thiện tốc độ suy luận (ví dụ: giảm 85,3% mã thông báo trực quan và tăng 2,53 lần tốc độ suy luận trên điểm chuẩn AI2D).