Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
EgoVLA: Học các mô hình thị giác-ngôn ngữ-hành động từ các video con người vị kỷ
Created by
Haebom
Tác giả
Ruihan Yang, Qinxi Yu, Ye Cheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Hongxu Yin, Sifei Liu, Song Han, Yao Lu, Xiaolong Wang
Phác thảo
Bài báo này trình bày một phương pháp khắc phục hạn chế về quy mô của việc thu thập dữ liệu robot thực trong học mô phỏng cho thao tác robot bằng cách sử dụng dữ liệu video góc nhìn lấy con người làm trung tâm. Chúng tôi huấn luyện mô hình Thị giác-Ngôn ngữ-Hành động (VLA) bằng cách tận dụng thông tin phong phú về bối cảnh và nhiệm vụ từ dữ liệu video của con người, và chuyển đổi hành động của con người thành hành động của robot thông qua động học ngược và tái định hướng. Chúng tôi tinh chỉnh mô hình bằng một số ít các bài trình diễn thao tác robot để có được chính sách robot gọi là EgoVLA, và đánh giá EgoVLA trên một chuẩn mô phỏng gọi là Isaac Humanoid Manipulation Benchmark, bao gồm nhiều tác vụ thao tác bằng hai tay, và chứng minh rằng nó vượt trội hơn các phương pháp hiện có.
Takeaways, Limitations
•
Takeaways:
◦
Tăng hiệu quả học điều khiển robot thông qua việc sử dụng dữ liệu video của con người trên quy mô lớn.
◦
Một phương pháp mới để tận dụng thông tin phong phú từ dữ liệu hành vi của con người cho việc học của robot được trình bày.
◦
ĐáNh giá khách quan và so sánh các kỹ năng điều khiển robot có thể thực hiện được thông qua Isaac Humanoid Manipulation Benchmark.
•
Limitations:
◦
Khả năng giảm độ chính xác do sự khác biệt giữa hành vi của con người và robot.
◦
Cần phải xác minh xem hiệu suất trong môi trường mô phỏng có thể được áp dụng tương tự trong môi trường thực tế hay không.
◦
Sự phụ thuộc vào tính đa dạng và chất lượng của dữ liệu video của con người.