Bài báo này đề xuất một khuôn khổ thế hệ tăng cường truy xuất lặp lại đa phương thức (MI-RAG) để giải quyết các hạn chế về hiệu suất của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) cho các câu hỏi trực quan chuyên sâu về kiến thức đòi hỏi kiến thức bên ngoài. MI-RAG tận dụng các suy luận để tăng cường khả năng truy xuất và cập nhật các suy luận trên nhiều phương thức dựa trên kiến thức mới được phát hiện. Tại mỗi lần lặp lại, nó tạo động nhiều truy vấn bằng cách sử dụng lịch sử suy luận tích lũy, thực hiện các tìm kiếm chung trên các cơ sở kiến thức không đồng nhất bao gồm cả kiến thức dựa trên trực quan và kiến thức văn bản. Kiến thức mới thu được được tích hợp vào lịch sử suy luận để cải thiện khả năng hiểu theo cách lặp lại. Trên các điểm chuẩn như VQA Bách khoa toàn thư, InfoSeek và OK-VQA, MI-RAG cải thiện đáng kể khả năng thu hồi truy xuất và độ chính xác của câu trả lời, đưa ra một phương pháp có thể mở rộng cho suy luận xây dựng trong VQA chuyên sâu về kiến thức.