Bài báo này đề cập đến một hướng nghiên cứu và ứng dụng quan trọng của robot, hoạt động của robot trong môi trường mở thực hiện nhiều nhiệm vụ khác nhau. Những tiến bộ gần đây trong xử lý ngôn ngữ tự nhiên và các mô hình đa phương thức quy mô lớn đã cải thiện khả năng hiểu các lệnh phức tạp của robot, nhưng thao tác robot vẫn phải đối mặt với tình thế tiến thoái lưỡng nan về kỹ năng thủ tục và kỹ năng khai báo trong môi trường mở. Các phương pháp hiện có thường đòi hỏi sự thỏa hiệp giữa khả năng nhận thức và khả năng điều hành. Để giải quyết những vấn đề này, trong bài báo này, chúng tôi đề xuất RoBridge, một kiến trúc thông minh phân cấp cho thao tác robot nói chung. RoBridge bao gồm một trình lập kế hoạch nhận thức cấp cao (HCP) dựa trên một mô hình ngôn ngữ thị giác (VLM) được đào tạo trước quy mô lớn, một biểu diễn hoạt động bất biến (IOR) làm cầu nối tượng trưng và một tác nhân triển khai tổng quát (GEA). RoBridge thu hẹp hiệu quả khoảng cách giữa nhận thức và thực thi bằng cách duy trì kỹ năng khai báo của VLM và tận dụng kỹ năng thủ tục của học tăng cường. RoBridge chứng minh những cải tiến đáng kể về hiệu suất so với các mô hình cơ sở hiện có, đạt tỷ lệ thành công 75% cho các nhiệm vụ mới và tỷ lệ thành công trung bình 83% trong việc khái quát hóa từ mô phỏng sang thực tế chỉ bằng 5 mẫu dữ liệu thực tế cho mỗi nhiệm vụ. Nghiên cứu này đánh dấu một bước tiến quan trọng hướng tới việc tích hợp lý luận nhận thức và thực thi vật lý vào các hệ thống robot, đồng thời mở ra một mô hình mới cho việc điều khiển robot nói chung.