Bài báo này đề xuất một khuôn khổ bỏ phiếu đa tác tử để giải quyết các vấn đề về việc sử dụng tự động các công cụ bên ngoài và thiếu sự phối hợp làm việc nhóm trong các phương pháp hiện có cho hệ thống trả lời câu hỏi trực quan (VQA) dựa trên mô hình ngôn ngữ quy mô lớn (LLM). Lấy cảm hứng từ xu hướng trả lời trực tiếp các câu hỏi quen thuộc của con người và sử dụng các công cụ như công cụ tìm kiếm cho các câu hỏi không quen thuộc, chúng tôi thiết kế ba tác tử dựa trên LLM với các khả năng khác nhau và quyết định có nên sử dụng các công cụ bên ngoài hay không dựa trên khả năng của từng tác tử. Câu trả lời cuối cùng được đưa ra bằng cách bỏ phiếu cho câu trả lời của từng tác tử. Kết quả thử nghiệm trên các tập dữ liệu OK-VQA và A-OKVQA cho thấy khuôn khổ đề xuất của chúng tôi cải thiện hiệu suất lần lượt là 2,2 và 1,0 so với các phương pháp hiện có.