Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nhiều tác nhân dựa trên mô hình ngôn ngữ lớn để trả lời câu hỏi trực quan dựa trên kiến thức

Created by
  • Haebom

Tác giả

Zhongjian Hu, Peng Yang, Bing Li, Zhenqi Wang

Phác thảo

Bài báo này đề xuất một khuôn khổ bỏ phiếu đa tác tử để giải quyết các vấn đề về việc sử dụng tự động các công cụ bên ngoài và thiếu sự phối hợp làm việc nhóm trong các phương pháp hiện có cho hệ thống trả lời câu hỏi trực quan (VQA) dựa trên mô hình ngôn ngữ quy mô lớn (LLM). Lấy cảm hứng từ xu hướng trả lời trực tiếp các câu hỏi quen thuộc của con người và sử dụng các công cụ như công cụ tìm kiếm cho các câu hỏi không quen thuộc, chúng tôi thiết kế ba tác tử dựa trên LLM với các khả năng khác nhau và quyết định có nên sử dụng các công cụ bên ngoài hay không dựa trên khả năng của từng tác tử. Câu trả lời cuối cùng được đưa ra bằng cách bỏ phiếu cho câu trả lời của từng tác tử. Kết quả thử nghiệm trên các tập dữ liệu OK-VQA và A-OKVQA cho thấy khuôn khổ đề xuất của chúng tôi cải thiện hiệu suất lần lượt là 2,2 và 1,0 so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi nhấn mạnh tầm quan trọng của việc sử dụng các công cụ bên ngoài và sự hợp tác trong VQA dựa trên LLM và đề xuất một khuôn khổ bỏ phiếu đa tác nhân để thực hiện điều này một cách hiệu quả.
Hiệu suất tuyệt vời của khuôn khổ đề xuất đã được xác minh thông qua kết quả thử nghiệm.
Chúng tôi đề xuất một phương pháp mới để cải thiện hiệu suất của LLM bằng cách mô phỏng các phương pháp giải quyết vấn đề của con người.
Limitations:
Cần nghiên cứu thêm để khám phá khả năng tổng quát hóa của thiết kế tác nhân và chiến lược phân bổ công cụ của khuôn khổ đề xuất.
Cần có thêm các thử nghiệm trên các loại tập dữ liệu VQA và công cụ bên ngoài khác nhau.
Cần có những nghiên cứu phức tạp hơn về cơ chế tương tác và giao tiếp giữa các tác nhân.
👍