Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

RoBridge: Kiến trúc phân cấp kết nối nhận thức và thực thi cho thao tác robot nói chung

Created by
  • Haebom

Tác giả

Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang

Phác thảo

Bài báo này đề cập đến một hướng nghiên cứu và ứng dụng quan trọng của robot, hoạt động của robot trong môi trường mở thực hiện nhiều nhiệm vụ khác nhau. Những tiến bộ gần đây trong xử lý ngôn ngữ tự nhiên và các mô hình đa phương thức quy mô lớn đã cải thiện khả năng hiểu các lệnh phức tạp của robot, nhưng thao tác robot vẫn phải đối mặt với tình thế tiến thoái lưỡng nan về kỹ năng thủ tục và kỹ năng khai báo trong môi trường mở. Các phương pháp hiện có thường đòi hỏi sự thỏa hiệp giữa khả năng nhận thức và khả năng điều hành. Để giải quyết những vấn đề này, trong bài báo này, chúng tôi đề xuất RoBridge, một kiến trúc thông minh phân cấp cho thao tác robot nói chung. RoBridge bao gồm một trình lập kế hoạch nhận thức cấp cao (HCP) dựa trên một mô hình ngôn ngữ thị giác (VLM) được đào tạo trước quy mô lớn, một biểu diễn hoạt động bất biến (IOR) làm cầu nối tượng trưng và một tác nhân triển khai tổng quát (GEA). RoBridge thu hẹp hiệu quả khoảng cách giữa nhận thức và thực thi bằng cách duy trì kỹ năng khai báo của VLM và tận dụng kỹ năng thủ tục của học tăng cường. RoBridge chứng minh những cải tiến đáng kể về hiệu suất so với các mô hình cơ sở hiện có, đạt tỷ lệ thành công 75% cho các nhiệm vụ mới và tỷ lệ thành công trung bình 83% trong việc khái quát hóa từ mô phỏng sang thực tế chỉ bằng 5 mẫu dữ liệu thực tế cho mỗi nhiệm vụ. Nghiên cứu này đánh dấu một bước tiến quan trọng hướng tới việc tích hợp lý luận nhận thức và thực thi vật lý vào các hệ thống robot, đồng thời mở ra một mô hình mới cho việc điều khiển robot nói chung.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một kiến trúc mới, RoBridge, kết hợp các mô hình ngôn ngữ thị giác được đào tạo trước quy mô lớn và học tăng cường để nâng cao khả năng nhận thức và thực hiện thao tác của rô-bốt.
Các nhiệm vụ và mô phỏng mới chứng minh tính hiệu quả của RoBridge bằng cách đạt được tỷ lệ thành công cao trong quá trình khái quát hóa thực tế.
ĐóNg góp vào lĩnh vực điều khiển robot nói chung bằng cách trình bày một mô hình mới tích hợp lý luận nhận thức và thực hiện vật lý.
Limitations:
Hiệu suất của RoBridge có thể phụ thuộc vào các tập dữ liệu và môi trường cụ thể.
Cần có thêm thử nghiệm và xác nhận cho các ứng dụng thực tế.
Cần có thêm nghiên cứu về tính tổng quát của IOR và khả năng thích ứng của nó với nhiều nhiệm vụ khác nhau.
Chi phí tính toán và yêu cầu dữ liệu do phải dựa vào các mô hình được đào tạo trước có quy mô lớn.
👍