Bài báo này đề xuất AdaLLaVA, một khuôn khổ suy luận thích ứng cho việc suy luận hiệu quả các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Các MLLM thông thường gặp khó khăn khi triển khai trong môi trường hạn chế tài nguyên do chi phí tính toán cao. AdaLLaVA giải quyết thách thức này thông qua một phương pháp tiếp cận dựa trên học máy, tự động cấu hình lại các phép tính MLLM trong quá trình suy luận, có tính đến dữ liệu đầu vào và ngân sách độ trễ. Thông qua nhiều thử nghiệm chuẩn mực, bao gồm trả lời câu hỏi, suy luận và ảo giác, chúng tôi chứng minh rằng AdaLLaVA đáp ứng hiệu quả ngân sách độ trễ đầu vào và đạt được nhiều sự đánh đổi giữa độ chính xác và độ trễ tùy thuộc vào thời gian thực thi. Hơn nữa, chúng tôi chứng minh rằng AdaLLaVA thích ứng với độ trễ và nội dung đầu vào, tích hợp với lựa chọn mã thông báo để nâng cao hiệu quả và có thể khái quát hóa cho nhiều MLLM khác nhau.