[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐIều khiển chính sách tiềm ẩn với các mô hình thế giới được đào tạo trước không phụ thuộc vào thể hiện

Created by
  • Haebom

Tác giả

Yiqi Wang, Mrinal Verghese, Jeff Schneider

Phác thảo

Bài báo này là một nghiên cứu nhằm giải quyết khó khăn trong việc thu thập dữ liệu khi học chính sách điều khiển thị giác-vận động của rô-bốt. Trong khi phương pháp học bắt chước hiện tại đòi hỏi một lượng lớn dữ liệu đào tạo, nghiên cứu này đề xuất một phương pháp để giảm lượng dữ liệu thu thập bằng cách sử dụng nhiều loại dữ liệu khác nhau (rô-bốt, con người). Ý tưởng chính là trước tiên học mô hình thế giới (WM) với nhiều loại dữ liệu khác nhau bằng cách sử dụng luồng quang học và tinh chỉnh nó với một lượng nhỏ dữ liệu về rô-bốt mục tiêu. Thứ hai, cải thiện đầu ra của chính sách sao chép hành động thông qua kỹ thuật Điều khiển chính sách tiềm ẩn (LPS) để tìm ra chuỗi hành động tốt hơn trong không gian tiềm ẩn của WM. Kết quả thực nghiệm cho thấy hiệu suất của chính sách được học với dữ liệu hạn chế (30 lần trình diễn: hơn 50%, 50 lần trình diễn: hơn 20%) được cải thiện đáng kể khi kết hợp với WM được đào tạo trước bằng bộ dữ liệu Open X-embodiment hoặc dữ liệu chơi của con người.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc tận dụng nhiều dạng dữ liệu khác nhau (robot, con người) có thể giảm đáng kể lượng dữ liệu cần thiết để học các chính sách điều khiển thị giác-vận động của robot.
Chúng tôi chứng minh rằng các kỹ thuật WM và LPS dựa trên dòng quang học có thể đạt hiệu suất cao ngay cả khi dữ liệu hạn chế.
Hiệu quả của phương pháp đề xuất được kiểm chứng thông qua các thí nghiệm thực tế với robot.
Limitations:
Hiệu suất có thể bị ảnh hưởng bởi chất lượng và số lượng dữ liệu tiền đào tạo, chẳng hạn như tập dữ liệu Open __T5416_____-embodiment hoặc dữ liệu chơi của con người.
Có thể cần nghiên cứu thêm về hiệu quả khám phá không gian tiềm ẩn của kỹ thuật LPS.
Cần đánh giá thêm hiệu suất tổng quát trên nhiều nhiệm vụ và môi trường khác nhau.
👍