Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
BÌNH CHỌN: Tối ưu hóa Tầm nhìn-Ngôn ngữ-Hành động với Biểu quyết Tập hợp Quỹ đạo
Created by
Haebom
Tác giả
Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guanyu Chen, Taskin Padir, Xiaomeng Yang, Weiwei Chen, Yiqian Li, Xue Lin, David Kaeli, Pu Zhao, Yanzhi Wang
Phác thảo
Bài báo này trình bày một khuôn khổ đào tạo mới và kỹ thuật tối ưu hóa suy luận giải quyết hai nhược điểm của các mô hình Vision Verbal Action (VLA) quy mô lớn: độ trễ suy luận cao và chi phí đào tạo tăng do tạo ra một số lượng lớn mã thông báo và hiệu suất kém do việc sử dụng không hết các hành động được tạo ra. Khuôn khổ được đề xuất làm giảm hiệu quả độ trễ suy luận và chi phí đào tạo bằng cách tinh chỉnh mô hình VLA để tạo ra số lượng mã thông báo hành động nhỏ hơn nhiều với tính song song cao. Hơn nữa, một kỹ thuật tối ưu hóa suy luận sử dụng chiến lược tổng hợp dựa trên bỏ phiếu mới kết hợp các dự đoán hành động hiện tại và trước đó để cải thiện việc sử dụng các hành động được tạo ra và hiệu suất tổng thể. Kết quả thử nghiệm chứng minh rằng khuôn khổ được đề xuất vượt trội hơn các mô hình VLA hiện đại, thể hiện tỷ lệ thành công cao hơn đáng kể và tốc độ suy luận nhanh hơn 39 lần (thông lượng 46 Hz) so với OpenVLA trên các nền tảng biên, chứng minh tiềm năng triển khai trong thế giới thực. Mã có sẵn trên GitHub.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi trình bày một khuôn khổ đào tạo hiệu quả giúp giảm đáng kể độ trễ suy luận và chi phí đào tạo của các mô hình VLA.
◦
Cải thiện việc sử dụng các hành động được tạo ra và hiệu suất tổng thể thông qua các chiến lược tổng hợp dựa trên bỏ phiếu.
◦
Thể hiện thông lượng cao (46Hz) và khả năng triển khai thực tế trên các nền tảng biên.
◦
ĐạT hiệu suất vượt trội hơn so với các mẫu VLA hiện đại.
•
Limitations:
◦
Cần phải xác minh thêm hiệu suất tổng quát của phương pháp đề xuất.
◦
Cần đánh giá khả năng mở rộng cho nhiều nhiệm vụ điều khiển robot khác nhau.
◦
Có khả năng hạn chế khả năng di chuyển sang các nền tảng khác do phải tối ưu hóa cho các nền tảng biên cụ thể.