Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
EgoVLA: Học các mô hình thị giác-ngôn ngữ-hành động từ các video con người vị kỷ
Created by
Haebom
Tác giả
Ruihan Yang, Qinxi Yu, Ye Cheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Hongxu Yin, Sifei Liu, Song Han, Yao Lu, Xiaolong Wang
Phác thảo
Trong bài báo này, chúng tôi đề xuất EgoVLA, một mô hình Thị giác-Ngôn ngữ-Hành động (VLA) sử dụng dữ liệu video được ghi lại từ góc nhìn của con người để khắc phục những hạn chế của việc thu thập dữ liệu robot thực tế trong quá trình học mô phỏng cho thao tác robot. Chúng tôi huấn luyện mô hình VLA bằng cách sử dụng thông tin phong phú về bối cảnh và nhiệm vụ từ dữ liệu video của con người, và chuyển đổi hành động của con người thành hành động của robot thông qua động học ngược và tái định hướng. Chúng tôi tinh chỉnh mô hình bằng một số ít các bài trình diễn thao tác robot, và đánh giá hiệu suất của nó trên các tác vụ thao tác hai tay khác nhau thông qua một chuẩn mô phỏng có tên là 'Ego Humanoid Manipulation Benchmark', chứng minh rằng nó vượt trội hơn các phương pháp hiện có.
Takeaways, Limitations
•
Takeaways:
◦
Cải thiện hiệu quả học mô phỏng thao tác của robot thông qua việc sử dụng dữ liệu video của con người trên quy mô lớn.
◦
Cải thiện hiệu suất tổng quát trên nhiều cảnh và nhiệm vụ khác nhau.
◦
Chuyển đổi hiệu quả hành vi của con người thành hành vi của robot thông qua động học ngược và nhắm mục tiêu lại.
◦
Giới thiệu chuẩn mực mô phỏng mới, Chuẩn mực thao túng người máy Ego.
•
Limitations:
◦
Khả năng giảm độ chính xác do sự khác biệt giữa hành vi của con người và robot.
◦
Cần phải xác minh hiệu suất tổng quát trong môi trường robot thực tế.
◦
Những hạn chế trong hiệu suất khái quát hóa do những hạn chế của Tiêu chuẩn thao túng người máy Ego.
◦
Phụ thuộc vào một lượng nhỏ dữ liệu demo của robot.