Bài báo này giới thiệu EO-Robotics, một mô hình cơ sở thể hiện thống nhất, EO-1, và một bộ dữ liệu suy luận thể hiện đa phương thức quy mô lớn, EO-Data1.5M, chứa hơn 1,5 triệu mẫu. EO-1 được huấn luyện bằng một kiến trúc thống nhất xử lý liền mạch các đầu vào phương thức đa dạng, bao gồm hình ảnh, văn bản, video và hành động, và EO-Data1.5M, kết hợp đồng bộ giải mã tự hồi quy và khử nhiễu khớp luồng. Điều này cho phép tạo hành động robot liền mạch và suy luận thể hiện đa phương thức, chứng minh hiệu quả của nó trong việc hiểu và khái quát hóa thế giới mở trên nhiều tác vụ thao tác kỹ năng dài hạn. Bài báo này trình bày chi tiết về kiến trúc của EO-1, chiến lược tổ chức dữ liệu của EO-Data1.5M và phương pháp huấn luyện.