[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phục hồi ngoài phân phối với chính sách đảo ngược điểm chính lấy đối tượng làm trung tâm cho việc học mô phỏng thị giác vận động

Created by
  • Haebom

Tác giả

George Jiayuan Gao, Tianyu Li, Nadia Figueroa

Phác thảo

Trong bài báo này, chúng tôi đề xuất một khuôn khổ phục hồi lấy đối tượng làm trung tâm (OCR) để giải quyết những thách thức của các tình huống ngoài phân phối (OOD) trong học chính sách thị giác vận động. Trong khi các phương pháp sao chép hành động (BC) hiện tại phụ thuộc rất nhiều vào một lượng lớn dữ liệu được gắn nhãn và thất bại trong các điều kiện không gian không quen thuộc, OCR học một chính sách phục hồi bao gồm một chính sách nghịch đảo được suy ra từ các gradient đa tạp điểm chính của đối tượng trong dữ liệu huấn luyện ban đầu mà không cần thu thập thêm dữ liệu. Chính sách phục hồi này hoạt động như một phần bổ sung đơn giản cho bất kỳ chính sách BC thị giác vận động cơ sở nào, bất kể phương pháp cụ thể nào, và hướng dẫn hệ thống trở lại phân phối huấn luyện để đảm bảo thành công của nhiệm vụ ngay cả trong các tình huống OOD. Trong cả mô phỏng và thí nghiệm robot thực tế, chúng tôi chứng minh được sự cải thiện lên đến 77,7% so với chính sách cơ sở trong OOD, đồng thời chứng minh khả năng OCR tự động thu thập các bản demo để học liên tục. Chúng tôi lập luận rằng khuôn khổ này đại diện cho một bước tiến hướng tới việc cải thiện tính mạnh mẽ của các chính sách thị giác vận động trong môi trường thực tế.

Takeaways, Limitations

Takeaways:
Một khuôn khổ mới được trình bày để cải thiện tính mạnh mẽ của các chính sách thị giác vận động trong các tình huống OOD.
Cải thiện hiệu suất OOD bằng cách tận dụng dữ liệu hiện có mà không cần thu thập thêm dữ liệu.
Khả năng mở rộng có thể được áp dụng như một mô-đun bổ sung cho chính sách BC hiện có.
Trình bày khả năng thu thập bản demo tự động để học tập liên tục.
Hiệu quả được kiểm chứng thông qua mô phỏng và thử nghiệm thực tế của robot.
Limitations:
Cần có thêm nghiên cứu về hiệu suất tổng quát của phương pháp đề xuất.
Cần đánh giá khả năng áp dụng cho nhiều đối tượng và nhiệm vụ khác nhau.
Cần phải phân tích chi phí tính toán và hiệu quả của các chính sách phục hồi khi học.
Khả năng giảm hiệu suất trong môi trường phức tạp của thế giới thực.
👍