Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HyCodePolicy: Bộ điều khiển ngôn ngữ lai cho giám sát và quyết định đa phương thức trong các tác nhân được thể hiện

Created by
  • Haebom

Tác giả

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Phác thảo

Bài báo này thảo luận về những tiến bộ gần đây trong các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM), cho phép cung cấp bằng chứng nhận thức phong phú để tạo chính sách mã trong các tác nhân được thể hiện. Hầu hết các hệ thống hiện có đều thiếu các cơ chế hiệu quả để giám sát việc thực thi chính sách một cách thích ứng và khôi phục mã trong quá trình hoàn thành tác vụ. Nghiên cứu này giới thiệu HyCodePolicy, một khung điều khiển dựa trên ngôn ngữ lai, tích hợp một cách có hệ thống tổng hợp mã, bằng chứng hình học, giám sát nhận thức và khôi phục lặp lại vào chu trình lập trình vòng kín của các tác nhân được thể hiện. Với một lệnh ngôn ngữ tự nhiên, trước tiên hệ thống phân tích nó thành các mục tiêu phụ và tạo ra một chương trình thực thi ban đầu dựa trên các nguyên hàm hình học hướng đối tượng. Sau đó, trong khi chương trình được thực thi trong mô phỏng, một mô hình ngôn ngữ thị giác (VLM) sẽ quan sát các điểm kiểm tra đã chọn để phát hiện, định vị và suy ra nguyên nhân của các lỗi thực thi. Bằng cách tích hợp các dấu vết thực thi có cấu trúc ghi lại các sự kiện ở cấp độ chương trình với phản hồi nhận thức dựa trên VLM, HyCodePolicy suy ra nguyên nhân của các lỗi và khôi phục chương trình. Cơ chế phản hồi kép lai này cho phép tổng hợp chương trình tự sửa lỗi với sự giám sát tối thiểu của con người. Kết quả thử nghiệm chứng minh rằng HyCodePolicy cải thiện đáng kể tính mạnh mẽ và hiệu quả mẫu của các chính sách thao tác robot, cung cấp một chiến lược có khả năng mở rộng để tích hợp suy luận đa phương thức vào các quy trình ra quyết định tự động.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu HyCodePolicy, một khuôn khổ mới tận dụng suy luận đa phương thức để cải thiện tính mạnh mẽ và hiệu quả mẫu của các chính sách thao tác robot.
Triển khai chu trình lập trình vòng kín tích hợp tổng hợp mã, cơ sở lý luận hình học, giám sát nhận thức và phục hồi lặp đi lặp lại.
Tổng hợp chương trình tự hiệu chỉnh có thể thực hiện được thông qua cơ chế phản hồi kép kết hợp giữa phản hồi nhận thức dựa trên VLM và theo dõi sự kiện cấp chương trình.
Cung cấp chiến lược có khả năng mở rộng để tích hợp suy luận đa phương thức vào quy trình ra quyết định tự động.
Limitations:
Hiệu suất của HyCodePolicy có thể phụ thuộc vào hiệu suất của VLM và các thành phần khác được sử dụng.
Có thể có khả năng hạn chế trong việc xử lý các tình huống hỏng hóc phức tạp hoặc bất ngờ.
Hiệu suất trong môi trường mô phỏng không đảm bảo khả năng khái quát hóa trong môi trường thực tế.
Cần cân nhắc đến những hạn chế và vấn đề bổ sung có thể phát sinh khi áp dụng vào hệ thống robot thực tế.
👍