Bài báo này xem xét các xu hướng nghiên cứu gần đây, trong đó các mô hình nền tảng, bao gồm các mô hình ngôn ngữ quy mô lớn (LLM) và các mô hình ngôn ngữ thị giác (VLM), đã cho phép các phương pháp tiếp cận mới đối với tính tự chủ của robot và giao diện người-robot. Cụ thể, chúng tôi tập trung vào cách các mô hình ngôn ngữ thị giác-hành động (VLA) và các mô hình hành vi quy mô lớn (LBM) góp phần nâng cao năng lực và chức năng của các hệ thống robot, đồng thời chúng tôi xem xét các nghiên cứu hướng tới các ứng dụng và kiến trúc dựa trên tác nhân. Các nghiên cứu này bao gồm từ việc khám phá các giao diện công cụ kiểu GPT đến các hệ thống phức tạp hơn, trong đó các tác nhân AI đóng vai trò là điều phối viên, người lập kế hoạch, tác nhân nhận thức hoặc giao diện chung. Các kiến trúc tác nhân này cho phép robot hiểu các lệnh ngôn ngữ tự nhiên, gọi API, lập kế hoạch chuỗi tác vụ và hỗ trợ các hoạt động và chẩn đoán. Phản ánh bản chất phát triển nhanh chóng của lĩnh vực này, chúng tôi không chỉ đề cập đến các nghiên cứu được bình duyệt mà còn cả các dự án do cộng đồng thúc đẩy, các gói ROS và các khuôn khổ công nghiệp. Chúng tôi đề xuất một phân loại để phân loại các phương pháp tích hợp mô hình và cung cấp một phân tích so sánh về vai trò của các tác nhân trong các giải pháp khác nhau trong các tài liệu hiện có.