Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

EmbodiedOneVision: Tiền huấn luyện thị giác-văn bản-hành động xen kẽ cho điều khiển robot nói chung

Created by
  • Haebom

Tác giả

Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanhui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jia Cheng Bao, Bin Zhao, Dong Wang

Phác thảo

Bài báo này giới thiệu EO-Robotics, một mô hình cơ sở thể hiện thống nhất, EO-1, và một bộ dữ liệu suy luận thể hiện đa phương thức quy mô lớn, EO-Data1.5M, chứa hơn 1,5 triệu mẫu. EO-1 được huấn luyện bằng một kiến ​​trúc thống nhất xử lý liền mạch các đầu vào phương thức đa dạng, bao gồm hình ảnh, văn bản, video và hành động, và EO-Data1.5M, kết hợp đồng bộ giải mã tự hồi quy và khử nhiễu khớp luồng. Điều này cho phép tạo hành động robot liền mạch và suy luận thể hiện đa phương thức, chứng minh hiệu quả của nó trong việc hiểu và khái quát hóa thế giới mở trên nhiều tác vụ thao tác kỹ năng dài hạn. Bài báo này trình bày chi tiết về kiến ​​trúc của EO-1, chiến lược tổ chức dữ liệu của EO-Data1.5M và phương pháp huấn luyện.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày mô hình nền tảng tích hợp EO-1 đạt hiệu suất vượt trội trong suy luận tích hợp đa phương thức và điều khiển robot.
Thể hiện hiệu quả của một kiến ​​trúc tích hợp có thể xử lý liền mạch nhiều đầu vào phương thức khác nhau.
Công bố phát hành EO-Data1.5M, một tập dữ liệu suy luận đa phương thức quy mô lớn chứa hơn 1,5 triệu mẫu chất lượng cao.
Một phương pháp đào tạo hiệu quả được trình bày thông qua sự kết hợp giữa giải mã tự hồi quy và khử nhiễu phù hợp với luồng.
Nâng cao khả năng hiểu biết về thế giới mở và hiệu suất khái quát trong các nhiệm vụ thao tác đòi hỏi kỹ năng lâu dài.
Limitations:
Thiếu phân tích so sánh rõ ràng để xác định liệu hiệu suất của EO-1 đã đạt đến mức độ linh hoạt của con người hay chưa.
Cần phân tích sâu hơn về độ lệch và khả năng khái quát hóa của tập dữ liệu EO-Data1.5M.
Cần có thêm các thí nghiệm để đánh giá khả năng tổng quát hóa của EO-1 trên nhiều nền tảng và môi trường robot khác nhau.
Thiếu đánh giá hiệu quả năng lượng và hiệu suất theo thời gian thực.
👍