[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

VITA: Chính sách kết hợp tầm nhìn với hành động

Created by
  • Haebom

Tác giả

Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Chu, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani

Phác thảo

VITA là một chính sách khớp dòng thị giác-hành động thực hiện điều khiển thị giác vận động bằng cách chuyển đổi các biểu diễn thị giác tiềm ẩn thành các hành động tiềm ẩn. Các chính sách khớp dòng và khuếch tán hiện có lấy mẫu từ các phân phối nguồn chuẩn như nhiễu Gauss và yêu cầu các cơ chế điều kiện bổ sung như chú ý chéo đến việc tạo ra hành động có điều kiện trên thông tin thị giác, gây ra chi phí không gian và thời gian. VITA trình bày một mô hình mới xử lý các hình ảnh tiềm ẩn như các nguồn dòng chảy, loại bỏ các mô-đun điều kiện riêng biệt và học cách ánh xạ duy nhất từ thị giác sang hành động trong khi vẫn duy trì khả năng mô hình hóa sinh. Việc học các dòng chảy giữa các phương thức cơ bản khác nhau như thị giác và hành động là một thách thức do dữ liệu hành động thưa thớt thiếu cấu trúc ngữ nghĩa và có sự không khớp về chiều giữa các biểu diễn thị giác có chiều cao và hành động thô. Để giải quyết vấn đề này, chúng tôi tạo ra một không gian tiềm ẩn hành động có cấu trúc làm mục tiêu khớp dòng thông qua một bộ mã hóa tự động và nâng cấp các hành động thô để khớp với hình thức của biểu diễn thị giác. Điều quan trọng là chúng tôi giám sát việc khớp luồng bằng cả mục tiêu bộ mã hóa và đầu ra hành động cuối cùng thông qua giải mã tiềm ẩn luồng, và lan truyền ngược lại tổn thất tái tạo hành động thông qua bước giải ODE khớp luồng tuần tự để học tập đầu cuối hiệu quả. Được triển khai như một lớp MLP đơn giản, VITA được đánh giá trên các tác vụ song thủ công phức tạp, bao gồm năm tác vụ mô phỏng và hai tác vụ thực tế trên nền tảng ALOHA. Mặc dù đơn giản, VITA chỉ MLP vượt trội hoặc ngang bằng với các chính sách sinh sản tiên tiến, đồng thời giảm độ trễ suy luận từ 50-130% so với các chính sách khớp luồng hiện có. Theo hiểu biết của chúng tôi, VITA là chính sách khớp luồng chỉ MLP đầu tiên có thể giải quyết các tác vụ song thủ công phức tạp như chuẩn ALOHA.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất một phương pháp khớp dòng chảy mới có thể ánh xạ trực tiếp thông tin thị giác tiềm ẩn thành hành động tiềm ẩn, do đó loại bỏ các cơ chế điều hòa bổ sung và cấu trúc phức tạp của các phương pháp hiện có và cải thiện hiệu quả.
Bằng cách thực hiện thành công các tác vụ thao tác phức tạp bằng hai tay chỉ bằng MLP, chúng tôi chứng minh được tính đơn giản và hiệu quả của mô hình.
Chúng tôi đạt được tốc độ suy luận cải thiện 50-130% so với các chính sách tạo ra tiên tiến hiện có.
Limitations:
Vì chỉ được đánh giá cho các tác vụ cụ thể trên nền tảng ALOHA nên hiệu suất tổng quát cho các tác vụ hoặc nền tảng khác cần được nghiên cứu thêm.
Cần phải xem xét đến tình trạng mất thông tin có thể xảy ra khi tạo không gian tiềm ẩn có cấu trúc bằng bộ mã hóa tự động.
Do cấu trúc đơn giản chỉ sử dụng MLP nên khả năng tổng quát hóa các tác vụ phức tạp và đa dạng hơn có thể bị hạn chế.
👍