Bài báo này thảo luận về những tiến bộ gần đây trong các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM), cho phép cung cấp bằng chứng nhận thức phong phú để tạo chính sách mã trong các tác nhân được thể hiện. Hầu hết các hệ thống hiện có đều thiếu các cơ chế hiệu quả để giám sát việc thực thi chính sách một cách thích ứng và khôi phục mã trong quá trình hoàn thành tác vụ. Nghiên cứu này giới thiệu HyCodePolicy, một khung điều khiển dựa trên ngôn ngữ lai, tích hợp một cách có hệ thống tổng hợp mã, bằng chứng hình học, giám sát nhận thức và khôi phục lặp lại vào chu trình lập trình vòng kín của các tác nhân được thể hiện. Với một lệnh ngôn ngữ tự nhiên, trước tiên hệ thống phân tích nó thành các mục tiêu phụ và tạo ra một chương trình thực thi ban đầu dựa trên các nguyên hàm hình học hướng đối tượng. Sau đó, trong khi chương trình được thực thi trong mô phỏng, một mô hình ngôn ngữ thị giác (VLM) sẽ quan sát các điểm kiểm tra đã chọn để phát hiện, định vị và suy ra nguyên nhân của các lỗi thực thi. Bằng cách tích hợp các dấu vết thực thi có cấu trúc ghi lại các sự kiện ở cấp độ chương trình với phản hồi nhận thức dựa trên VLM, HyCodePolicy suy ra nguyên nhân của các lỗi và khôi phục chương trình. Cơ chế phản hồi kép lai này cho phép tổng hợp chương trình tự sửa lỗi với sự giám sát tối thiểu của con người. Kết quả thử nghiệm chứng minh rằng HyCodePolicy cải thiện đáng kể tính mạnh mẽ và hiệu quả mẫu của các chính sách thao tác robot, cung cấp một chiến lược có khả năng mở rộng để tích hợp suy luận đa phương thức vào các quy trình ra quyết định tự động.