Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Robot vận hành thiết bị gia dụng bằng cách đọc hướng dẫn sử dụng

Created by
  • Haebom

Tác giả

Jian Zhang, Hanbo Zhang, Anxing Xiao, David Hsu

Phác thảo

Bài báo này trình bày ApBot, một hệ thống giúp cải thiện khả năng vận hành nhiều loại thiết bị gia dụng của robot gia dụng. ApBot là một hệ thống robot vận hành thiết bị gia dụng mới bằng cách "đọc" hướng dẫn sử dụng. Nó phải đối mặt với nhiệm vụ suy ra một chính sách phụ có điều kiện mục tiêu từ mô tả văn bản phi cấu trúc của hướng dẫn sử dụng, áp dụng nó vào thiết bị vật lý và thực thi chính sách một cách đáng tin cậy qua nhiều bước bất chấp các lỗi tích lũy. Để giải quyết thách thức này, ApBot sử dụng mô hình ngôn ngữ thị giác quy mô lớn (VLM) để xây dựng một mô hình biểu tượng có cấu trúc của thiết bị từ hướng dẫn sử dụng và áp dụng trực quan các hành động biểu tượng vào các thành phần bảng điều khiển. Cuối cùng, nó khép kín vòng lặp bằng cách cập nhật mô hình dựa trên phản hồi trực quan. Kết quả thử nghiệm cho thấy trên nhiều thiết bị mô phỏng và thực tế, ApBot đạt được những cải tiến nhất quán và có ý nghĩa thống kê về tỷ lệ thành công của nhiệm vụ so với các VLM quy mô lớn hiện đại được sử dụng trực tiếp làm chính sách điều khiển. Những kết quả này cho thấy các biểu diễn nội bộ có cấu trúc đóng một vai trò quan trọng trong việc vận hành robot của các thiết bị gia dụng phức tạp nói riêng.

Takeaways, Limitations

Takeaways:
Chứng minh tiềm năng của hệ thống robot trong việc hiểu hướng dẫn sử dụng và vận hành các thiết bị gia dụng.
Chúng tôi chứng minh tính hiệu quả của phương pháp tạo ra các mô hình biểu tượng có cấu trúc bằng cách tận dụng các mô hình ngôn ngữ thị giác quy mô lớn.
Trình bày khả năng thực hiện nhiệm vụ ổn định thông qua việc đóng vòng lặp dựa trên phản hồi trực quan.
Nhấn mạnh tầm quan trọng của việc thể hiện nội bộ có cấu trúc trong quá trình vận hành các thiết bị gia dụng phức tạp.
Limitations:
Sự tin cậy vào tính chính xác của việc giải thích hướng dẫn sử dụng.
Hạn chế về hiệu suất tổng quát trên các loại thiết bị và định dạng hướng dẫn sử dụng khác nhau.
Khả năng hạn chế trong việc ứng phó với sự bất trắc và sai sót của môi trường thực tế.
Hiệu suất có thể giảm do sự khác biệt giữa môi trường mô phỏng và môi trường thực tế.
👍