Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LEGO Co-builder: Khám phá mô hình ngôn ngữ thị giác chi tiết cho trợ lý lắp ráp LEGO đa phương thức

Created by
  • Haebom

Tác giả

Haochen Huang, Jiahuan Pei, Mohammad Aliannejadi, Xin Sun, Moonisa Ahsan, Chuang Yu, Zhaochun Ren, Pablo Cesar, Junxiao Wang

Phác thảo

Bài báo này đề cập đến những thách thức của các mô hình ngôn ngữ thị giác (VLM) trong việc hiểu và tuân theo các lệnh lắp ráp đa phương thức, đặc biệt là khi cần suy luận không gian phức tạp và phát hiện trạng thái đối tượng chính xác. Chúng tôi trình bày LEGO Co-builder, một chuẩn mực kết hợp giữa logic lắp ráp LEGO trong thế giới thực với các cảnh đa phương thức được tạo theo chương trình. Bộ dữ liệu này ghi lại các trạng thái thị giác từng bước và các lệnh thủ tục, cho phép đánh giá có kiểm soát việc tuân theo lệnh, phát hiện đối tượng và phát hiện trạng thái. Các VLM hàng đầu như GPT-4o, Gemini và Qwen-VL được đánh giá dựa trên khuôn khổ thống nhất của chúng tôi trong các cài đặt zero-shot và tinh chỉnh. Kết quả cho thấy ngay cả các mô hình tiên tiến như GPT-4o cũng gặp khó khăn với các tác vụ lắp ráp phức tạp, với điểm F1 tối đa chỉ 40,54% cho việc phát hiện trạng thái, cho thấy một khoảng cách trong khả năng hiểu thị giác phức tạp. Để hỗ trợ nghiên cứu hỗ trợ lắp ráp đa phương thức trong tương lai, chúng tôi công khai chuẩn mực, cơ sở mã và quy trình tạo.

Takeaways, Limitations

Takeaways:
Cung cấp chuẩn mực mới (LEGO Co-builder) cho nghiên cứu về hệ thống hỗ trợ lắp ráp đa phương thức dựa trên quy trình làm việc thực tế.
Chúng tôi tiết lộ giới hạn của khả năng hiểu biết hình ảnh phức tạp và khả năng suy luận không gian của VLM hiện đại.
Trình bày các hướng nghiên cứu nhằm cải thiện hiệu suất của VLM trong các hoạt động lắp ráp phức tạp.
Limitations:
ĐIểm F1 của chuẩn mực hiện tại tương đối thấp ở mức 40,54%, tạo cơ hội cho VLM cải thiện hiệu suất.
Vì đây là tiêu chuẩn cụ thể cho việc xây dựng LEGO nên cần nghiên cứu thêm về khả năng tổng quát hóa của nó cho các nhiệm vụ đa phương thức khác.
Các loại VLM được sử dụng trong đánh giá còn hạn chế. Cần có thêm nghiên cứu bao gồm nhiều mô hình đa dạng hơn.
👍