Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Căn chỉnh-Sau đó-Sắp xếp: Điều chỉnh các Mô hình Hành động Ngôn ngữ-Tầm nhìn thông qua Hướng dẫn Tiềm ẩn Thống nhất

Created by
  • Haebom

Tác giả

Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

Phác thảo

Bài báo này trình bày khuôn khổ Align-Then-StEer (ATE) để giải quyết những thách thức khi áp dụng các mô hình Vision-Language-Action (VLA) được đào tạo trước cho các tác vụ hạ nguồn sử dụng các tập dữ liệu lớn và đa dạng. ATE xây dựng một không gian tiềm ẩn thống nhất bằng cách sử dụng bộ mã hóa tự động biến phân bị ràng buộc bởi độ phân kỳ KL nghịch đảo để kết hợp các hành động thích ứng vào các chế độ phân phối tiềm ẩn của hành động được đào tạo trước. Sau đó, nó kiểm soát quá trình tạo VLA dựa trên khuếch tán hoặc dòng chảy trong quá trình tinh chỉnh thông qua một cơ chế hướng dẫn dịch chuyển phân phối đầu ra của mô hình về phía miền mục tiêu. Các thí nghiệm mở rộng về triển khai chéo và thao tác tác vụ chéo trong môi trường mô phỏng và thực tế chứng minh rằng, so với tinh chỉnh trực tiếp các VLA thông thường, phương pháp được đề xuất cải thiện tỷ lệ thành công đa tác vụ trung bình lên tới 9,8% trong mô phỏng và 32% trong cài đặt triển khai chéo trong thế giới thực.

Takeaways, Limitations

Takeaways:
Giải pháp này cung cấp một giải pháp chung, nhẹ giúp tăng cường đáng kể khả năng ứng dụng của các mô hình VLA vào các nền tảng và nhiệm vụ robot thực tế.
Các mô hình VLA có thể được điều chỉnh cho phù hợp với nền tảng và nhiệm vụ robot mới theo cách hiệu quả về mặt dữ liệu.
Cải thiện đáng kể hiệu suất triển khai chéo và thao tác chéo tác vụ trong cả môi trường mô phỏng và thực tế.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của khung ATE được trình bày trong bài báo này. Có thể cần thử nghiệm thêm trên nhiều nhiệm vụ và nền tảng robot khác nhau.
Cần nghiên cứu thêm để xác định liệu các ràng buộc sử dụng phân kỳ KL ngược có phải là phương pháp tối ưu hay không, hoặc liệu có thể đạt được hiệu suất tốt hơn khi sử dụng các phương pháp ràng buộc khác hay không.
Trong các ứng dụng thực tế, có thể không xem xét đến giới hạn về kích thước mẫu hoặc các yếu tố môi trường.
👍