Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

VIPER: Nhận thức thị giác và lý luận có thể giải thích được cho việc ra quyết định tuần tự

Created by
  • Haebom

Tác giả

Mohamed Salim Aissi, Clemence Grislain, Mohamed Chetouani, Olivier Sigaud, Laure Soulier, Nicolas Thome

Phác thảo

Trong bài báo này, chúng tôi đề xuất VIPER, một khuôn khổ mới cho lập kế hoạch được hướng dẫn trực quan. VIPER tích hợp nhận thức dựa trên Mô hình Ngôn ngữ Thị giác (VLM) và suy luận dựa trên Mô hình Ngôn ngữ Lớn (LLM). Nó sử dụng một đường ống mô-đun, trong đó VLM tạo ra các mô tả văn bản về quan sát hình ảnh, và chính sách LLM dự đoán các hành động dựa trên mục tiêu nhiệm vụ. Chúng tôi tinh chỉnh mô-đun suy luận bằng cách sử dụng sao chép hành động và học tăng cường để nâng cao khả năng ra quyết định của tác nhân. Kết quả thử nghiệm trên chuẩn ALFWorld chứng minh rằng VIPER vượt trội đáng kể so với lập kế hoạch được hướng dẫn trực quan hiện đại và thu hẹp khoảng cách hiệu suất với các oracle hoàn toàn dựa trên văn bản. Bằng cách tận dụng văn bản làm biểu diễn trung gian, chúng tôi nâng cao khả năng giải thích và cho phép phân tích chi tiết các thành phần nhận thức và suy luận.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để giải quyết các vấn đề lập kế hoạch trực quan bằng cách tích hợp VLM và LLM.
Nó cho thấy hiệu suất được cải thiện so với các mô hình tiên tiến hiện có và thu hẹp khoảng cách hiệu suất với các thuật toán dựa trên văn bản.
Tiềm năng giải thích của quá trình lập kế hoạch đã được tăng cường thông qua các biểu diễn trung gian bằng văn bản.
Hiện nay có thể phân tích chi tiết các thành phần nhận thức và lý luận.
Limitations:
Chỉ có kết quả cho chuẩn mực ALFWorld được trình bày và hiệu suất tổng quát trong các môi trường khác vẫn chưa được xác minh.
Có thể thiếu giải thích chi tiết về cách tích hợp VLM và LLM cũng như quá trình tinh chỉnh.
Thiếu sự đánh giá về các ứng dụng thực tế.
👍